بازشناسی گفتار: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Ketabzar (بحث | مشارکت‌ها)
بدون خلاصۀ ویرایش
جز تمیزکاری با ویرایشگر خودکار فارسی
خط ۱:
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده‌است، طراحی و پیاده‌سازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج می‌کند. فناوری '''بازشناسی گفتار''' به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که گفتار کاربر را متوجه شود.
 
فناوری تبدیل گفتار به متن ممکن است به عنوان جایگزینی برای [[صفحه کلید]] یا [[ماوس]] برای وارد کردن دستورها مورد استفاده قرار گیرد. سیستم‌های واکافت‌کننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می‌توانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستم‌ها قادرند واژگان گفته شده توسط افراد مختلف یا فقط توسط یک گوینده را تشخیص دهند. به هر حال ایده‌آل‌ترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط [[نویز|نویزی]] شناسایی نماید.
خط ۷:
یک سیستم بازشناسی گفتار خودکار (Automatic Speech Recognition) که به اختصار ASR نامیده می‌شود با چالشهای فراوانی روبروست. از جمله مهمترین این چالشها می‌توان به وجود نویز، انتخاب مجموعه ویژگی‌های مناسب، انتخاب مدل آکوستیکی مناسب، تنوع زبان، تنوع جنسیت و [[مشکل لهجه در بازشناسی گفتار]] اشاره نمود. در مورد زبان‌های رایج مانند انگلیسی کارهای زیادی در جهت مقابله با این چالش‌ها انجام شده‌است اما در مورد [[زبان فارسی]] هنوز راه زیادی در پیش است.
==کاربردها==
امروزه با داشتن [[میکروفن]] و [[کارت صوتی ]] در کامپیوتر و بکارگیری نرم‌افزار تشخیص گفتار می‌توان دستورها یا کلمات را به صورت صوتی به [[کامپیوتر]] وارد کرد. حتی در بعضی از گوشی‌های [[تلفن همراه]] از این سیستم‌ها جهت دریافت دستورها به صورت صوتی استفاده می‌شود.
 
از آنجا که ارتباط کلامی راحت‌ترین، ساده‌ترین و سریع‌ترین راه ارتباطی می‌باشد با کمک سیستم‌های تشخیص گفتار می‌توان با رایانه‌ها از طریق صحبت ارتباط برقرار نمود، با آن‌ها حرف زد، دستور داد یا از پشت تلفن و از راه دور بتوان سیستم‌های خانگی را کنترل نمود. با کمک این محصولات، بسیاری از افراد معلول یا افرادی با آشنایی محدود با کامپیوتر و زبان‌های‌خارجی نیز می‌توانند تنها از طریق صحبت‌کردن با کامپیوتر ارتباط برقرار نمایند.
 
 
;بازشناسی با فاصله و آرایه میکروفنی
سطر ۱۹ ⟵ ۱۸:
 
تحقیقات ابتدایی در زمینه روش‌های تبدیل متن به گفتار انجام گرفته‌است. کارهای انجام گرفته بیشتر در محدوده مدل زبانی و آماده نمودن برنامه‌های اولیه TTS است.
===[[بازشناسی گفتار]] تلفنی===
یکی از کاربردهای بازشناسی گفتار، استفاده از آن در سیستم‌های تلفنی می‌باشد که کاربر بتواند در پشت تلفن تنها با بیان عنوان موردنظر به صورت گفتاری، کار خود را انجام دهد. این پروژه تحولی در سیستم‌های کامپیوتر- تلفنی به وجود آورده‌است. تشخیص گفتار تلفنی به دلیل شرایط خاص پشت تلفن مانند نویزهای کانال، محدودیت [[پهنای باند]]، تنوع نوع گوشی‌ها، تغییرات شدت صدا، تنوع گوینده و تنوع گویش دارای پیچیدگی‌های خاص خود است. نیوشا نرم‌افزار توسعه داده شده برای تشخیص گفتار تلفنی است که به روش‌های مختلف مقاوم‌سازی مجهز شده‌است تا قابل استفاده در کاربردهای واقعی باشد.
بازشناسی گفتار روی [[رایانه‌های جیبی]] و [[پردازنده]]‌های خاص
سطر ۳۵ ⟵ ۳۴:
==تشخیص گفتار از غیر گفتار (VAD)==
برای بازشناسی گفتار پیوسته یا بازشناسی دستورها صوتی در یک [[رایانه]] بدون مشخص بودن شروع یا پایان آواها، لازم است که بدانیم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همین دلیل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روی گفتار انجام گیرد. در این تحقیقات دو روش جدید پیاده‌سازی شده‌است و از روش‌های استاندارد ETSI's AMR, ITU-T's G.722 VAD برای مقایسه و ارزیابی کارایی استفاده می‌شود.
 
 
===تشخیص گفتار بومی از غیربومی===