مشکل لهجه در بازشناسی گفتار

لهجه ترکیبی از سه مؤلفه اصلی: آهنگ، اتصال کلمات و طرز تلفظ واجهاست ^[۱] . تحلیل‌های مبتنی بر ابزارهای آماری چند متغیره مانند PCA و ICA نشان می‌دهند که لهجه یکی از عوامل کلیدی در ایجاد تمایز میان گویندگان مختلف است^[۲]. مشکلات ناشی از تنوع لهجه به اندازه تنوع جنسیت می‌تواند تأثیرگذار باشد. بنابراین، نیاز به سیستمی که بتواند به خوبی لهجه‌ها را شناسایی و از هم تفکیک نماید بشدت احساس می‌شود. دو فاز بسیار مهم که به منظور تعدیل اثر لهجه به سامانه بازشناسی گفتار اضافه می‌شوند عبارتند از فاز تطبیق مدل آکوستیکی با لهجه و فاز شناسایی لهجه ^[۳]. در فاز تطبیق مدل آکوستیکی با لهجه، سعی می‌کنیم به تعداد لهجه‌های موجود در دادگان، مدل آکوستیکی تطبیق یافته برای آن لهجه‌ها تولید نماییم و در فاز شناسایی لهجه، به تعیین لهجه یک جمله یا یک گوینده می‌پردازیم تا در مرحله بازشناسی بتوانیم مدل آکوستیکی تطبیق یافته مناسب را برای آن نمونه انتخاب کنیم.

تطبیق مدل آکوستیکی با لهجه

منظور از تطبیق مدل، استفاده از مقدار کمی دادگان تطبیقی به منظور ایجاد تغییراتی در سیستم بازشناسی گفتار است به گونه‌ای که بتواند تا حد ممکن اطلاعات مربوط به داده جدید را مدل کند ^[۴].عدم وجود دادگان کافی برای ساخت مدل‌های وابسته به لهجه و گوینده چالشی است که سازندگان مدل‌های آکوستیکی با آن مواجه هستند. پر واضح است که مدل‌های وابسته به گوینده و وابسته به لهجه دقت بالاتری دارند اما ساخت چنین مدل‌هایی نیازمند دادگان گفتاری کافی از هر لهجه یا گوینده است. آزمایش‌ها نشان می‌دهند که استفاده از مدل‌های واجی وابسته به لهجه که با تعداد کمی داده آموزش دیده‌اند به‌مراتب دقت کمتری نسبت به مدل‌هایی دارند که به صورت مستقل از لهجه و با دادگان زیاد آموزش دیده‌اند. این بدان معناست که اگر مجموعه دادگان گفتاری دارای چندین لهجه مختلف با تعداد داده کم در هر لهجه است، بهتر است به جای ساخت چند مدل مجزا برای هر لهجه، یک مدل جامع با تمام دادگان تمام لهجه‌ها بسازیم. این مدل جامع که با ترکیبی از دادگان لهجه‌های مختلف آموزش دیده است را مدل مرجع می‌نامیم. حال اگر این مدل مرجع به نوعی با دادگان خاص هر لهجه تطبیق داده شود انتظار می‌رود نتایج بهتری بدست آید. در این حالت پس از ساخت مدل مرجع، با استفاده از دادگان تطبیق هر لهجه و اعمال آن به مدل مرجع، فضای پارامتری مدل مرجع را به سمت فضای لهجه مورد نظر سوق می‌دهیم. مسئله تطبیق مدل با لهجه به اندازه تطبیق گوینده مورد توجه محققان نبوده‌است. بنابراین، بدیهی است که تعداد روش‌های مطرح شده برای تطبیق مدل با لهجه بسیار کمتر از روش‌های تطبیق گوینده است. استفاده از روش‌های تطبیق پایه مانند MAP ^[۵] و MLLR ^[۶] و روش‌های پیچیده‌تر مانند فضای ویژه ^[۷] در تطبیق گوینده بسیار مرسوم است. با این حال در سال‌های اخیر مسئله تطبیق مدل آکوستیکی با لهجه، توجه بسیاری را بخود جلب کرده‌است. برخی مقالات اهمیت مسئله تنوع لهجه را هم سنگ با تنوع جنسیت دانسته‌اند.

دسته بندی روش‌های تطبیق

در یک دسته بندی، روش‌های تطبیق را به دو دسته تقسیم می‌کنند:

روش‌های تطبیق ایستا: که در آن دادگان تطبیق از ابتدا موجود هستند و اندازه‌شان ثابت است.
روش‌های تطبیق افزایشی: که در آن دادگان تطبیق در طی زمان اجرا در دسترس قرار می‌گیرند. مانند حالتی که قرار است یک مدل مرجع با بخش کوتاهی از گفتار گوینده تستی تطبیق داده شود ^[۸].

با توجه به نحوه اجرای فاز آزمون، روش‌های تطبیق را به دو دسته دیگر تقسیم می‌کنند:

روش‌های تطبیق با ناظر: که در آن دادگان آزمون دارای برچسب لهجه هستند و نیازی به شناسایی لهجه نیست.
و روش‌های تطبیق بدون ناظر: که در آن دادگان آزمون دارای برچسب لهجه نیستند و می‌بایست از یک رده‌بند لهجه نیز استفاده گردد.

رده بندی لهجه

مسئله شناسایی لهجه یا رده‌بندی لهجه موضوع جدیدیست که اخیراً توجه بسیاری از محققان را بخود جلب کرده‌است. این در حالیست که مسئله شناسایی زبان موضوعی است که سال‌ها دانشمندان بر روی آن کار کرده‌اند و به دستاوردهای مفیدی رسیده‌اند. از آنجایی که این دو مسئله تا حد زیادی بهم شبیه هستند، بسیاری از افراد تلاش کرده‌اند از روش‌های پیشنهاد شده برای شناسایی زبان در مورد شناسایی لهجه استفاده نمایند. در برخی موارد نیز نتایج خوبی بدست آمده‌است اما در حقیقت زبان و لهجه تفاوت‌های اساسی با یکدیگر دارند. در زبان‌های مختلف، مجموعه واج‌های متفاوت و مجموعه کلمات متفاوتی وجود دارند که این خود یکی از پارامترهای مهم برای شناسایی و تفکیک زبان‌های مختلف از یکدیگر است. با توجه به این موضوع، استفاده از مدل‌های زبانی در روش‌های مختلف شناسایی زبان، جزئی جدایی ناپذیر در این حوزه می‌باشد. از این جنبه، مسئله شناسایی لهجه را می‌توان به دو دسته مجزا تفکیک کرد: یکی مسئله شناسایی لهجه‌های غیر بومی که بسیار شبیه به شناسایی زبان است زیرا در هر دو واج آرایی در یک جمله مهمترین پارامتر برای تفکیک کلاس‌های مختلف از یکدیگر است و دیگری مسئله شناسایی لهجه‌های محلی که در آن ویژگی‌های آکوستیکی نقش مهمی ایفا می‌کنند ^[۹]؛ چرا که اغلب، مجموعه واج‌ها در لهجه‌های محلی یک زبان، یکسان هستند. اگرچه لهجه‌های مختلف ممکن است از لحاظ ریخت‌شناسی و تحولات لغوی، واژه نامه، صرف و نحو، واج‌آرایی و واج‌شناسی تا حدی با یکدیگر متفاوت باشند اما برجسته نمودن این تفاوت‌ها در حیطه لهجه بسیار دشوارتر از زبان است. بنابراین، بنظر می‌رسد موضوع شناسایی لهجه بسیار دشوارتر از شناسایی زبان باشد. در ادامه تعدادی از روش‌های پیشنهاد شده برای شناسایی لهجه را معرفی خواهیم نمود.

روشهای رده بندی لهجه

ساخت مدل هر لهجه و تعیین نزدیک‌ترین مدل به یک نمونه تستی با استفاده از الگوریتم بیشترین درستنمایی ، یکی از روش‌های پایه در این زمینه است. در مرجع ^[۱۰] با در نظر گرفتن دو حالت مختلف، روش‌هایی برای مقاوم‌سازی در برابر لهجه پیشنهاد شده‌است. در حالت اول، اگر برای هر لهجه دادگان کافی در اختیار باشد، می‌توان با ساخت مدل‌های وابسته به لهجه و اعمال الگوریتم بیشترین درست‌نمایی، گفتار لهجه‌دار را بازشناسی نمود. در حالت دوم، اگر دادگان کمی برای هر لهجه در اختیار داشته باشیم، با ساخت یک مدل مستقل از لهجه و بکارگیری تکنیک‌های تطبیق در سطح آوانویسی و ترکیب آن با روش‌های تطبیق MLLR به بازشناسی گفتار لهجه‌دار می‌پردازیم. تحقیقات نشان می‌دهند که ویژگی‌های پروزودیک می‌توانند به خوبی خصوصیات یک لهجه را نشان دهند. استخراج این ویژگی‌ها در کنار سایر ویژگی‌های آکوستیکی مانند MFCC و PLP، می‌توانند در شناسایی لهجه‌های مختلف مفید باشند. در همین راستا در مرجع ^[۱۱] روشی جامع برای استخراج ویژگی‌های پروزودیک مانند زیر و بمی، فرکانس فرمانت، انرژی و غیره ارائه نموده‌است. علاوه بر این، ویژگی‌های بلند مدت نظیر SDC نیز در کنار ویژگی‌های پروزودیک نتایج خوبی در شناسایی لهجه و شناسایی زبان داشتند ^[۱۲]. از ویژگی‌های SDC در کنار ویژگی‌های دیگر برای آموزش مدل مخلوط گاوسی برای هر زبان یا لهجه استفاده می‌شود. استفاده از تکنیک‌های متمایزساز مانند تحلیل متمایزساز خطی (LDA) و تحلیل متمایز ساز خطی ناهمگون (HLDA) نیز می‌توانند منجر به افزایش دقت رده‌بندی شوند ^[۱۳] . از طرف دیگر، مدل‌هایی که اغلب به عنوان مدل لهجه بکار گرفته می‌شوند از نوع GMM یا HMM هستند. شبکه عصبی و ماشین بردار پشتیبان (SVM)، کمتر در این حیطه بکار گرفته می‌شوند. برای مثال، در مرجع ^[۱۴] از مدل مخلوط گاوسی برای شناسایی لهجه استفاده شده‌است. در مرجع ^[۱۵] با توجه به وجود مرزهای فازی بین کلاس واج‌ها، از یک روش جدید مبتنی بر معیارهای فازی برای انتخاب مقادیر اولیه مخلوط‌های گاوسی استفاده شده‌است. در این روش، ارزش عضویت در کلاسترها، با توجه به فاصله‌های درون کلاستری و برون کلاستری محاسبه می‌شود. اگر بتوان بردار ویژگی‌ها را بشکلی مناسب فراهم کرد، SVM و ANN نیز می‌توانند در رده‌بندی لهجه مفید واقع شوند. برای مثال، در مرجع ^[۱۶] پس از دریافت سیگنال گفتار، با کمک یک بازشناس واج گاوسی، دنباله واج‌های آن سیگنال استخراج می‌شود. سپس به جای هر واج، ابر برداری شامل تمام میانگین‌های تمام مؤلفه‌های گاوسی آن واج جایگزین می‌گردد و بدین وسیله، یک سری بردار ویژگی جدید حاصل می‌شود که برای آموزش یک رده‌بند SVM بکار برده می‌شود. روش‌های متنوع بسیاری برای رده‌بندی و شناسایی لهجه‌ها وجود دارد. یکی دیگر از این روش‌ها که مرجع ^[۱۷] به آن اشاره کرده‌اند، روشی است که در آن با استفاده از یکسری تقطیع‌کننده‌های مبتنی بر GMM، گفتار را به دنباله‌ای از نمادها تبدیل می‌کنند. این نمادها در واقع شماره مؤلفه گاوسی مربوط به هر فریم هستند. در این روش‌ها ادعا می‌شود که ترتیب قرار گرفتن این نمادها در هر عبارت می‌تواند به شناسایی لهجه آن عبارت کمک کند.

منابع

↑ A. Cook, American Accent Training: A Guide to Speaking and Pronouncing American English for Everyone Who Speaks English as a second Language, Barrons; 2nd edition, 2000
↑ C. Huang, T. Chen, E. Chang, Accent Issues in Large Vocabulary Continuous Speech Recognition, In: International Journal of Speech Technology, vol.7, Issue: 2/3, pp. 141-153, 2004
↑ شهاب جلالوند، بهبود روش‌های تطبیق مدل آکوستیکی به منظور استفاده در بازشناسی گفتار فارسی، پایان‌نامه کارشناسی ارشد، دانشگاه علم و صنعت ایران،اسفند 1390 نشانی= http://aspl.iust.ac.ir/index.php?option=com_content&view=article&id=23&Itemid=18^{^{[پیوند مرده]}}
↑ L. I. Kuncheva, Combining Pattern Classification: Methods and Algorithms, John Wiley & Sons, Inc., Hoboken, New Jersey, 2004.
↑ C. H. Lee, J. L. Gauvain, Speaker Adaptation based on MAP Estimation of HMM Parameters, Acoustics, In: IEEE International Conference on Speech, and Signal Processing, ICASSP-93, vol.2, pp. 558-561, Apr. 1993.
↑ Z. Ansari, F. Almasganj, Implementing PCA-based Speaker Adaptation Methods in a Persian ASR System, In: 5th International Symposium on Telecommunications (IST), pp. 769 - 774, Dec. 2010 .
↑ B. K. Mak, R. W. Hsiao, S. K. Ho, J. T. Kwok, Embedded Kernel Eigenvoice Speaker Adaptation and its Implication to Reference Speaker Weighting, presented at IEEE Transactions on Audio, Speech & Language Processing, vol.14, pp.1267-1280, 2006.
↑ S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, The HTK Book: HMM Adaptation, Cambridge University Engineering Department 2006.
↑ L. W. Kat, Fast Accent Classification and Adaptation, Master Thesis, The Hong Kong University of Science and Technology, 2000.
↑ T. Carrasquillo, A. Pedro, T. P. Gleason, D. A. Reynolds, Dialect Identification Using Gaussian Mixture Models, In Proc. the Speaker and Language Recognition Workshop (ODYS), pp. 297-300, 2004.
↑ R. Mohamed, S. Raviraj, Prosodic Feature Extraction for Regional Tamil Dialects, In: IEEE International Conference on Emerging Trends in Electrical and Computer Technology, vol.1, pp. 922-925, India, 2011.
↑ W. Q. Zhang, L. He, Y. Deng, J. Liu, M.T. Johnson, Time–Frequency Cepstral Features and Heteroscedastic Linear Discriminant Analysis for Language Recognition, In: IEEE Transactions on Audio, Speech, and Language Processing, pp. 266-276, Feb. 2011.
↑ L. Adde, B. Réveil, J. P. Martens, T. Svendsen, A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-native Proper Names, In INTERSPEECH-2010, pp. 2282-2285, 2010.
↑ F. Biadsy, J. Hirschberg, M. Collins,Dialect Recognition Using a Phone-GMM-Supervector-Based SVM Kernel, In INTERSPEECH-2010, vol.10, pp. 75-756, 2010.
↑ S. Ullah, F. Karray, Speaker Accent Classification System using Fuzzy Canonical Correlation-Based Gaussian Classifier, In IEEE International Conference on Signal Processing and Communications, ICSPC ,vol.12, pp. 792-795, Nov. 2007.
↑ F. Biadsy, J. Hirschberg, M. Collins, Dialect Recognition Using a Phone-GMM-Supervector-Based SVM Kernel, In INTERSPEECH-2010, vol.10, pp. 75-756, 2010.
↑ A. Hanani, M. Carey,M. J. Russell Improved language recognition using mixture components statistics, In INTERSPEECH-2010, pp. 741-744.

[1] A. Cook, American Accent Training: A Guide to Speaking and Pronouncing American English for Everyone Who Speaks English as a second Language, Barrons; 2nd edition, 2000

[2] C. Huang, T. Chen, E. Chang, Accent Issues in Large Vocabulary Continuous Speech Recognition, In: International Journal of Speech Technology, vol.7, Issue: 2/3, pp. 141-153, 2004

[3] شهاب جلالوند، بهبود روش‌های تطبیق مدل آکوستیکی به منظور استفاده در بازشناسی گفتار فارسی، پایان‌نامه کارشناسی ارشد، دانشگاه علم و صنعت ایران،اسفند 1390 نشانی= http://aspl.iust.ac.ir/index.php?option=com_content&view=article&id=23&Itemid=18^{^{[پیوند مرده]}}

[4] L. I. Kuncheva, Combining Pattern Classification: Methods and Algorithms, John Wiley & Sons, Inc., Hoboken, New Jersey, 2004.

[5] C. H. Lee, J. L. Gauvain, Speaker Adaptation based on MAP Estimation of HMM Parameters, Acoustics, In: IEEE International Conference on Speech, and Signal Processing, ICASSP-93, vol.2, pp. 558-561, Apr. 1993.

[6] Z. Ansari, F. Almasganj, Implementing PCA-based Speaker Adaptation Methods in a Persian ASR System, In: 5th International Symposium on Telecommunications (IST), pp. 769 - 774, Dec. 2010 .

[7] B. K. Mak, R. W. Hsiao, S. K. Ho, J. T. Kwok, Embedded Kernel Eigenvoice Speaker Adaptation and its Implication to Reference Speaker Weighting, presented at IEEE Transactions on Audio, Speech & Language Processing, vol.14, pp.1267-1280, 2006.

[8] S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, The HTK Book: HMM Adaptation, Cambridge University Engineering Department 2006.

[9] L. W. Kat, Fast Accent Classification and Adaptation, Master Thesis, The Hong Kong University of Science and Technology, 2000.

[10] T. Carrasquillo, A. Pedro, T. P. Gleason, D. A. Reynolds, Dialect Identification Using Gaussian Mixture Models, In Proc. the Speaker and Language Recognition Workshop (ODYS), pp. 297-300, 2004.

[11] R. Mohamed, S. Raviraj, Prosodic Feature Extraction for Regional Tamil Dialects, In: IEEE International Conference on Emerging Trends in Electrical and Computer Technology, vol.1, pp. 922-925, India, 2011.

[12] W. Q. Zhang, L. He, Y. Deng, J. Liu, M.T. Johnson, Time–Frequency Cepstral Features and Heteroscedastic Linear Discriminant Analysis for Language Recognition, In: IEEE Transactions on Audio, Speech, and Language Processing, pp. 266-276, Feb. 2011.

[13] L. Adde, B. Réveil, J. P. Martens, T. Svendsen, A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-native Proper Names, In INTERSPEECH-2010, pp. 2282-2285, 2010.

[14] F. Biadsy, J. Hirschberg, M. Collins,Dialect Recognition Using a Phone-GMM-Supervector-Based SVM Kernel, In INTERSPEECH-2010, vol.10, pp. 75-756, 2010.

[15] S. Ullah, F. Karray, Speaker Accent Classification System using Fuzzy Canonical Correlation-Based Gaussian Classifier, In IEEE International Conference on Signal Processing and Communications, ICSPC ,vol.12, pp. 792-795, Nov. 2007.

[16] F. Biadsy, J. Hirschberg, M. Collins, Dialect Recognition Using a Phone-GMM-Supervector-Based SVM Kernel, In INTERSPEECH-2010, vol.10, pp. 75-756, 2010.

[17] A. Hanani, M. Carey,M. J. Russell Improved language recognition using mixture components statistics, In INTERSPEECH-2010, pp. 741-744.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]