بازشناسی گفتار: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
خط ۱:
{{ویکی‌سازی}}
{{ویکیسازی}}
 
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده‌است، طراحی و پیاده‌سازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج می‌کند.
فناوری '''تشخیص گفتار''' به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای [[صفحه کلید]] یا [[ماوس]] برای وارد کردن دستورات مورد استفاده قرار می‌گیرد. سیستم‌های تشخیص دهنده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می‌توانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را تشخیص دهند. همچنین سیستم‌ها قادرند کلمات بیان شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایده آل‌ترینایده‌آل‌ترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید.
این سیستم‌ها با بکار گیری روش‌های مختلف [[طبقه بندی]] و شناسایی الگو قادرند به تشخیص کلمات هستند که البته برای افزایش دقت در شناسایی از یک [[فرهنگ لغات]] نیز در انتهای سیستم استفاده می‌شود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستم‌های تشخیص گفتار مورد استفاده قرار می‌گیرند و در بخش‌های انتهایی سیستم از [[هوش مصنوعی]] کمک گرفته می‌شود.
 
یک سیستم بازشناسی گفتار خودکار (Automatic Speech Recognition) که به اختصار ASR نامیده می‌شود با چالشهای فراوانی روبروست. از جمله مهمترین این چالشها می‌توان به وجود نویز، انتخاب مجموعه ویژگی‌های مناسب، انتخاب مدل آکوستیکی مناسب، تنوع زبان، تنوع جنسیت و [[مشکل لهجه در بازشناسی گفتار]] اشاره نمود. در مورد زبان‌های رایج مانند انگلیسی کارهای زیادی در جهت مقابله با این چالش‌ها انجام شده‌است اما در مورد [[زبان فارسی]] هنوز راه زیادی در پیش است.
امروزه با داشتن میکروفن و کارت صوتی در کامپیوتر و بکار گیری نرم‌افزار تشخیص گفتار می‌توان دستورات یا کلمات را به صورت صوتی به کامپیوتر وارد کرد. حتی در بعضی از گوشی‌های [[تلفن همراه]] از این سیستم‌ها جهت دریافت دستورات بصورت صوتی استفاده می‌شود.
 
یکی از مطرح ترین پژوهشگاه‌های ایران در زمینه تکنیک‌های تشخیص گفتاری [[عصرگویش پرداز]] می‌باشد. این شرکت به عنوان اولین مرکز پیشرو در ارایه سیستم‌های مبتنی بر ساده‌ترین وسیله ارتباطی انسان برای زبان فارسی، علاوه بر توسعه تعدادی از سیستم‌ها و راه‌حل‌های مبتنی بر گفتار مانند سیستم دیکته زبان فارسی، سیستم تشخیص گفتار تلفنی، جستجوگر کلمات در گفتار و... برای زبانهای فارسی و انگلیسی، توانایی انجام کلیه فعالیت‌های دیگر مبتنی بر گفتار را دارد. از آنجا که ارتباط کلامی راحت ترین، ساده ترین و سریع ترین راه ارتباطی می‌باشد با کمک سیستمهای تشخیص گفتار عصر گویش پرداز می‌توان با رایانه‌ها از طریق صحبت ارتباط برقرار نمود، با آنها حرف زد، دستور داد یا از پشت تلفن و از راه دور بتوان سیستمهای خانگی را کنترل نمود. با کمک این محصولات، بسیاری از افراد معلول و یا افرادی با آشنایی محدود با کامپیوتر و زبان‌های‌خارجی نیز می‌توانند تنها از طریق صحبت‌کردن با کامپیوتر ارتباط برقرار نمایند. در حال حاضر موتور تشخیص گفتار در این شرکت طراحی و پیاده‌سازی شده‌است که پایه و هسته اصلی سیستم‌های تشخیص گفتار فارسی است. این سیستم بر اساس آخرین تکنولوژی و استفاده از منابع علمی روز طراحی شده و دقتی بسیار قابل قبول در مقایسه با سیستم‌های معروف خارجی دارد. تعدادی از محصولات شرکت که بر اساس موتور تشخیص گفتار توسعه داده شده‌اند، شامل موارد زیر می‌باشد:
 
(شنوا)سیستم دیکته کردن متن به جای تایپ نمودن آن با قابلیت فعال شدن در همه محیط‌ها جهت افزایش موثر سرعت تایپ
خط ۱۶:
(پارسیا)مترجم کلامی فارسی-انگلیسی با امکانات محدود
(آریانا) سیستم متن خوان فارسی
علاوه بر زمینه‌های پردازش سیگنال‌ها و بویژه سیگنال‌های صوتی و تشخیص اتوماتیک گفتار، محققان این شرکت در زمینه‌های دیگری چون افزایش کیفیت گفتار، ، تبدیل گفتار به متن، پردازش زبانهای طبیعی شامل روش‌های آماری، دستوری و معنایی زبان درمرحله [[تحقیق و توسعه]] سیستمها می‌باشند که هم اکنون برخی از این محصولات در اختیار کاربران قرار گرفته‌است. به علاوه این محصولات می‌تواند به زبان‌های دیگر و از جمله [[زبان انگلیسی]] نیز توسعه داده شود. این شرکت افتخار دارد با تلاش محققان وطن دوست توانسته‌است به یکی از تکنولوژی روز دنیا دست یابد و در حال حاضرآماده همکاری با شرکت‌ها، موسسات و سازمانهایی است که خواهان استفاده از محصولات عصر گویش پرداز جهت تسریع بخشیدن در کار مدیران یا تکریم ارباب رجوع می‌باشد.
پروژه ها<big>متن بزرگ</big>
نویسا: تایپ گفتاری
مهمترین پروژه در حال اجرای واحد تحقیقات شرکت، پروژه دیکته گفتاری زبان فارسی (شنوا) می‌باشد. به کمک شنوادیگر لازم به تایپ یا نوشتن متن نیست، بلکه تنها لازم است که متن خوانده شده آنگاه رایانه آن را برای شما تایپ می‌نماید. در این پروژه تحقیقاتی روش‌های مرسوم و نوین در بازشناسی گفتار مورد استفاده قرار گرفته‌است. موتور و هسته اصلی بازشناسی گفتار پیوسته به صورت مستقل از گوینده و با واژگان بزرگ آماده گردیده‌است که تحقیقات برای بهبود بیشتر و افزایش قابلیت‌های مختلف به آن در حال انجام است.
<big>مقاوم‌سازی سیستم‌های تشخیص گفتار</big><small>متن کوچک</small>
این شرکت تحقیقات گسترده‌ای روی روش‌های مختلف تشخیص گفتار مقاوم به شرایط محیطی و گویندگان مختلف انجام داده‌است. این روشها بر روی موتور بازشناسی گفتار اضافه شده‌است تا بتوان کار بازشناسی گفتار را در محیط‌های واقعی انجام داد. علاوه بر موتور بازشناسی گفتار، تشخیص گفتار مقاوم در محصولات دیگر مانند محصولات تلفنی و برای کاربرد خاص آنها [[بهینه سازی]] شده‌است. تعدادی از روشهای مقاوم سازی به کار رفته به شرح زیر است:
 
روش‌های مبتنی بر ویژگی: CMS, PCA, RASTA-PLP, RCC, Liftering
خط ۲۸:
روشهای مبتنی بر پیش بینی: PMC
روشهای مبتنی بر نرمال سازی گوینده: VTLN
مدل‌های زبانی و پردازش زبان‌های طبیعی<big>متن بزرگ</big>
برای بسیاری از کاربردها مانند تشخیص گفتار، [[TTS]]،[[ترجمه]]، [[نویسه‌خوانی نوری|OCR]] و پیدا نمودن خطاهای تایپی، [[مدلهای زبانی]] از مهمترین ابزارهای مورد نیاز می‌باشد. شرکت عصر گویش روی زبان‌های فارسی و انگلیسی روی این زمینه فعالیت نموده‌است و توانسته روشهای آماری و دستور زبانی را برای زبان فارسی آماده نماید. مخصوصا برای [[دستور زبان فارسی]] با توجه به کمبود منابع [[دستور زبان]] محاسباتی از افراد خبره [[زبان شناسی]] استفاده شده‌است. تعدادی از کارهای انجام شده به شرح زیر است:
 
مدل احتمالی کلمات تکی، دوتایی، سه‌تایی و چهارکلمه‌ای برای زبان‌های فارسی و انگلیسی
خط ۳۶:
پارسرهای مناسب مدل زبانی
روشهای خوشه بندی کلمات
بازشناسی گفتار تلفنی<big>متن بزرگ</big>
یکی از کاربردهای بازشناسی گفتار، استفاده از آن در سیستم‌های تلفنی می‌باشد که کاربر بتواند در پشت تلفن تنها با بیان عنوان موردنظر به صورت گفتاری، کار خود را انجام دهد. این پروژه تحولی در سیستم‌های کامپیوتر- تلفنی به وجود آورده‌است. تشخیص گفتار تلفنی به دلیل شرایط خاص پشت تلفن مانند نویزهای کانال، محدودیت پهنای باند، تنوع نوع گوشی‌ها، تغییرات شدت صدا، تنوع گوینده و تنوع گویش دارای پیچیدگی‌های خاص خود است. نیوشا نرم افزارنرم‌افزار توسعه داده شده برای تشخیص گفتار تلفنی است که به روش‌های مختلف مقاوم‌سازی مجهز شده‌است تا قابل استفاده در کاربردهای واقعی باشد.
بازشناسی گفتار روی [[رایانه‌های جیبی]] و [[پردازنده‌پردازنده|پردازنده‌های]]های خاص
یکی از پروژه‌های موجود در گروه تحقیقات شرکت، بازشناسی گفتار روی رایانه‌های جیبی، گوشی‌های همراه و پردازنده‌های خاصی که عموماعموماً دارای توان پردازشی ضعیف‌تر بوده و قابلیت پردازش اعداد اعشاری را ندارند، می‌باشد. موتور بازشناسی گفتار مخصوص اینگونه پردازنده‌ها آماده شده‌است که با سرعت و دقت مناسب کار بازشناسی را انجام می‌دهد. نرم افزارنرم‌افزار مترجم صوتی و اجرای برنامه صوتی دو نمونه از این [[نرم افزارنرم‌افزار|نرم‌افزارها]]ها می‌باشد که روی [[دستیار دیجیتال شخصی|PDA]] های آماده شده‌است.
 
تشخیص کلمات کلیدی گفتار
خط ۶۰:
 
تشخیص گفتار بومی از غیربومی
این کارتحقیقاتی برای [[زبان فنلاندی]] شروع شد و تا حدودی کار برای زبان فارسی انجام شده‌است. با استفاده از این روش می‌توان امتیاز، دقت و درست بودن [[لهجه]]، بین یک گوینده با [[لهجه غیربومی]] و فرد دیگری با لهجه بومی را پیدا نمود.
 
محاسبه سریع معیارشباهت
خط ۶۶:
 
== منابع ==
{{پانویس}}
* 1-[http://ce.sharif.edu/~ayat/Speech_Signal_Processing_Book.htm کتاب مبانی پردازش سیگنال گفتار]
* دکتر سعید آیت، انتشارات دانشگاه پیام نور، ۱۳۸۷.
سطر ۸۴ ⟵ ۸۵:
 
{{Link GA|de}}
[[رده:ویکی‌سازی رباتیک]]