فرآوری گفتار

فرآوری گفتار (به انگلیسی: speech synthesis) یا متن به گفتار (به انگلیسی: Text-to-Speech) که سرواژه آن TTS است، برنامه‌ای است که متن ورودی را به صدای انسان را می‌خواند.

این نوع برنامه برای تبدیل متن به پرونده صوتی (کتاب گویا)، تلفظ کلمات در نرم‌افزارهای واژه‌نامه، خواندن صفحه رایانه و نیز تلفن هوشمند مخصوصاً برای کاربران نابینا توسط نرم‌افزارهای صفحه‌خوان کاربرد دارد. همچنین در سامانه‌های تلفن مخابرات و نیز دستگاه‌های خودپرداز جهت ارتباط گفتاری با کاربر بکار می‌رود.

باید توجه کرد که اصطلاح «متن به گفتار» برای اشاره به دو مفهوم متفاوت بکار می‌رود:

الف) موتور متن به گفتار (به انگلیسی: Text-to-Speech engine)

ب) پخش‌کننده متن به گفتار (به انگلیسی: Text-to-Speech player)

که وظیفه تبدیل متن به گفتار در پس‌زمینه بر عهده موتور متن به گفتار است و پخش‌کننده متن به گفتار محیط کاربری برای وارد کردن متن و گرفتن خروجی صدا یا ذخیره در قالب پرونده صوتی را فراهم می‌کند. به منظور جلوگیری از ابهام معمولاً موتور متن به گفتار اصطلاحاً (به انگلیسی: Speech-synthesizer) نامیده می‌شود از طرف دیگر پخش‌کننده متن به گفتار مخصوصاً در بین کاربران عام رایانه متن به گفتار نامیده می‌شود. لیکن باید توجه کرد زبانهای پشتیبانی شده گفتار و کیفیت صدا مربوط به موتور متن گفتار است و یک موتور متن به گفتار با رابط برنامه‌نویسی (API) به راحتی در نرم‌افزارهای گوناگون (پخش‌کننده‌های متن به گفتار) قابل فراخوانی و استفاده است.

به‌طور کلی برای تبدیل متن به گفتار نیاز است تا پارامترهای مهم در تولید گفتار استخراج و استفاده شوند. استخراج بعضی از این پارامترها همچون رشته آوایی نوشتار، کشش زمانی واجها و منحنی پیچ گفتار الزامی و بعضی دیگر همچون سرعت بیان، درنگ بین کلمات و تن صدا از جمله پارامترهای غیرضروری می‌باشند که استفاده از آن‌ها منجر به بهبود خروجی سیستم می‌گردد.^[۱] پیمانه‌های لازم برای تبدیل متن به گفتار در یک سیستم تولید گفتار از متن عموماً شامل دو بخش است: بخش پردازش زبان طبیعی اجزاء سازنده متن ورودی شامل کلمات، گروه‌های گرامری، جمالت و دیگر اطلاعات مرتبط با پردازش زبان که در بخش پردازش سیگنال دیجیتالی به عنوان ورودی مورد نیاز است تهیه می‌کند. بخش پردازش دیجیتالی سیگنال با استفاده از نتایج حاصل از بخش NLP، پارامترهای گفتار را شامل رشته آوایی متن و پارامترهای نوایی تعیین و در انتها گفتار خروجی با استفاده از یک موتور سنتز تولید می‌گردد.

موتورهای متن به گفتار مشهور

در حال حاضر ئی اسپیک، پارس خوان و نرم فزار آریانا و تاک بات و «ماهور» موتورهای متن به گفتار مشهور هستند که از زبان فارسی پشتیبانی می‌کنند.

یکی از کامل‌ترین پخش‌کننده متن به گفتار در مایکروسافت ویندوز بالابولکا (به انگلیسی: Balabolka) نام دارد. ویژگی جالب این نرم‌افزار تشخیص متن فارسی از انگلیسی و استفاده از موتورهای متن به گفتار جداگانه (با رابط Windows SAPI 5) برای هر یک از زبان‌ها است.

مقالات مرتبط

پیوند به بیرون

منابع

↑ بهرنگ قاسمی زاده و مجید نم نبات، ساختار یک سیستم تبدیل متن به گفتار برای زبان فارسیT بایگانی‌شده در ۱۷ نوامبر ۲۰۱۵ توسط Wayback Machine

مشارکت‌کنندگان ویکی‌پدیا. «Speech synthesis». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۱ مارس ۲۰۱۹.
https://en.wikipedia.org/wiki/Comparison_of_speech_synthesizers
https://en.wikipedia.org/wiki/ESpeak
https://en.wikipedia.org/wiki/Microsoft_Speech_API

[1] بهرنگ قاسمی زاده و مجید نم نبات، ساختار یک سیستم تبدیل متن به گفتار برای زبان فارسیT بایگانی‌شده در ۱۷ نوامبر ۲۰۱۵ توسط Wayback Machine

[۱]