پیکره گفتاری فارسی

پیکره‌ای گفتاری از متون زبان فارسی

پیکره گفتاری فارسی یک پیکره زبانی فارسی نو برای تولید گفتار است. این پیکره دربرگیرنده آوانگاری آواشناسی و نوشتار حدود ۲٫۵ ساعت گفتار فارسی با گفتار ضبط شده در سطح واجی شامل حاشیه نویسی‌های مرزهای واژگانی است.[۱] پیکره‌های گفتاری پیشین فارسی عبارتند از فارس‌دات (FARSDAT)، که شامل خواندن متون روزنامه با صدای بلند توسط ۱۰۰ فارسی‌زبان و پایگاه اطلاعاتی گفتار تلفنی فارسی (TFARSDAT) است که شامل هفت ساعت خواندن و گفتار خودجوش است که توسط ۶۰ گوینده بومی فارسی از ده منطقه ایران تولید شده‌است.[۲]

منابع ویرایش

  1. Halabi, Nawar (2016). Modern Standard Persian Phonetics for Speech Synthesis (PDF) (PhD Thesis). دانشگاه ساوت‌همپتون، School of Electronics and Computer Science.
  2. Bijankhan, Mahmood, Javad Sheykhzadegan, Mohammad Bahrani, Masood Ghayoomi, 2011. “Lessons from building a Persian written corpus: Peykare” Language Resources and Evaluation 45.2: 143–164

پیوند به بیرون ویرایش