بازشناسی گفتار: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
بدون خلاصۀ ویرایش |
Yamaha5Bot (بحث | مشارکتها) جز تمیزکاری با ویرایشگر خودکار فارسی |
||
خط ۱:
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شدهاست، طراحی و پیادهسازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج میکند. فناوری '''بازشناسی گفتار''' به رایانهای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را میدهد که گفتار کاربر را متوجه شود.
فناوری تبدیل گفتار به متن ممکن است به عنوان جایگزینی برای [[صفحه کلید]] یا [[ماوس]] برای وارد کردن دستورها مورد استفاده قرار گیرد. سیستمهای واکافتکننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط میتوانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستمها قادرند واژگان گفته شده توسط افراد مختلف یا فقط توسط یک گوینده را تشخیص دهند. به هر حال ایدهآلترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط [[نویز|نویزی]] شناسایی نماید.
خط ۷:
یک سیستم بازشناسی گفتار خودکار (Automatic Speech Recognition) که به اختصار ASR نامیده میشود با چالشهای فراوانی روبروست. از جمله مهمترین این چالشها میتوان به وجود نویز، انتخاب مجموعه ویژگیهای مناسب، انتخاب مدل آکوستیکی مناسب، تنوع زبان، تنوع جنسیت و [[مشکل لهجه در بازشناسی گفتار]] اشاره نمود. در مورد زبانهای رایج مانند انگلیسی کارهای زیادی در جهت مقابله با این چالشها انجام شدهاست اما در مورد [[زبان فارسی]] هنوز راه زیادی در پیش است.
==کاربردها==
امروزه با داشتن [[میکروفن]] و [[کارت صوتی
از آنجا که ارتباط کلامی راحتترین، سادهترین و سریعترین راه ارتباطی میباشد با کمک سیستمهای تشخیص گفتار میتوان با رایانهها از طریق صحبت ارتباط برقرار نمود، با آنها حرف زد، دستور داد یا از پشت تلفن و از راه دور بتوان سیستمهای خانگی را کنترل نمود. با کمک این محصولات، بسیاری از افراد معلول یا افرادی با آشنایی محدود با کامپیوتر و زبانهایخارجی نیز میتوانند تنها از طریق صحبتکردن با کامپیوتر ارتباط برقرار نمایند.
;بازشناسی با فاصله و آرایه میکروفنی
سطر ۱۹ ⟵ ۱۸:
تحقیقات ابتدایی در زمینه روشهای تبدیل متن به گفتار انجام گرفتهاست. کارهای انجام گرفته بیشتر در محدوده مدل زبانی و آماده نمودن برنامههای اولیه TTS است.
===
یکی از کاربردهای بازشناسی گفتار، استفاده از آن در سیستمهای تلفنی میباشد که کاربر بتواند در پشت تلفن تنها با بیان عنوان موردنظر به صورت گفتاری، کار خود را انجام دهد. این پروژه تحولی در سیستمهای کامپیوتر- تلفنی به وجود آوردهاست. تشخیص گفتار تلفنی به دلیل شرایط خاص پشت تلفن مانند نویزهای کانال، محدودیت [[پهنای باند]]، تنوع نوع گوشیها، تغییرات شدت صدا، تنوع گوینده و تنوع گویش دارای پیچیدگیهای خاص خود است. نیوشا نرمافزار توسعه داده شده برای تشخیص گفتار تلفنی است که به روشهای مختلف مقاومسازی مجهز شدهاست تا قابل استفاده در کاربردهای واقعی باشد.
بازشناسی گفتار روی [[رایانههای جیبی]] و [[پردازنده]]های خاص
سطر ۳۵ ⟵ ۳۴:
==تشخیص گفتار از غیر گفتار (VAD)==
برای بازشناسی گفتار پیوسته یا بازشناسی دستورها صوتی در یک [[رایانه]] بدون مشخص بودن شروع یا پایان آواها، لازم است که بدانیم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همین دلیل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روی گفتار انجام گیرد. در این تحقیقات دو روش جدید پیادهسازی شدهاست و از روشهای استاندارد ETSI's AMR, ITU-T's G.722 VAD برای مقایسه و ارزیابی کارایی استفاده میشود.
===تشخیص گفتار بومی از غیربومی===
|