پیش‌نویس:سنتز گفتار یادگیری عمیق

(این مقاله در حال ترجمه از ویکی انگلیسی است

لطفا حذف نشود.)

یادگیری عمیق سنتز گفتار، از شبکه‌های عصبی عمیق (DNN) برای تولید گفتار مصنوعی از متن (متن به گفتار) یا طیف (رمزگذارهای صوتی) استفاده می‌کند. شبکه های عصبی عمیق با استفاده از حجم زیادی از گفتار ضبط شده و در مورد سیستم متن به گفتار، برچسب های مرتبط و/یا متن ورودی آموزش داده می شوند.

بعضی از سنتز کننده های گفتار مبتنی بر DNN، رویکرد طبیعت صدای انسان را در پیش می گیرند.

فرمول های مرتبط ویرایش

با توجه به یک متن ورودی یا یک سری از واحدهای زبانی   ، گفتار هدف   را می توان توسط رابطه ی زیر به دست آورد:

 

جایی که   پارامتر مدل است.

معمولا ابتدا متن ورودی به یک تولید کننده ی ویژگی صوتی ارسال می شود، سپس ویژگی های آکوستیک به رمزگذارهای صوتی عصبی فرستاده می شود. برای مولد ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگی های صوتی خروجی باید از نوع گاوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدوده ی صدای انسان در حدود 300 تا 4000 هرتز متغیر است، تابع هرینه طوری طراحی می شود که جریمه بیشتری در این محدوده داشته باشد:

 

که   تلفات محدوده ی صدای انسان و   یک اسکالر(مقدار عددی) معمولاً در حدود 0.5 است. ویژگی آکوستیک معمولاً طیف نگار یا طیف نگاری در مقیاس Mel است . این ویژگی‌ها رابطه زمان-فرکانس سیگنال گفتار را می گیرند و بنابراین، تولید خروجی‌های هوشمند با این ویژگی‌های صوتی کافی است. ویژگی Mel-frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش می دهد.

تاریخچه مختصر ویرایش

پرونده:WaveNet animation.gif
مجموعه ای از لایه های پیچشی معمولی اتساع یافته که در WaveNet استفاده می شود [۱]

در سپتامبر 2016، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل تولید کننده ی عمیق از شکل‌ موج های صوتی خام، که نشان می‌دهد مدل‌های مبتنی بر یادگیری عمیق قادر هستند شکل موج های خام را مدل سازی کنند و از روی مشخصه های آکوستیک، مانند طیف‌نگارها یا طیف‌نگارهای مل گفتار تولید کنند. اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته می‌شد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاح‌شده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریع‌تر از نسخه اصلی بود. [۱]

در اوایل سال 2017، میلا char2wav را پیشنهاد کرد که مدلی برای تولید شکل موج خام در یک روش end-to-end بود. در همان سال، گوگل و فیس‌بوک به ترتیب Tacotron و VoiceLoop را برای تولید ویژگی‌های صوتی مستقیماً از متن ورودی پیشنهاد کردند. ماه‌ها بعد، گوگل Tacotron2 را پیشنهاد کرد، که کدصدای WaveNet را با معماری اصلاح‌شده Tacotron ترکیب کرد تا سنتز گفتار سرتاسر را انجام دهد. Tacotron2 می تواند گفتاری با کیفیت بالا تولید کند که نزدیک به صدای انسان است. از آن زمان، روش‌های end-end تبدیل به داغ‌ترین موضوع تحقیقاتی شده‌اند، زیرا بسیاری از محققان در سراسر جهان متوجه قدرت ترکیب‌کننده‌های گفتار end-end شده‌اند. [۲] [۳]

یادگیری نیمه نظارتی ویرایش

در حال حاضر، یادگیری خود نظارتی به دلیل استفاده بهتر از داده های بدون برچسب، توجه زیادی را به خود جلب کرده است. تحقیقات [۴] [۵] نشان داده است که با کمک تلفات خود نظارتی، نیاز به داده های جفت کاهش می یابد.

سازگاری اسپیکر صفر شات ویرایش

سازگاری بلندگو با شات صفر امیدوارکننده است زیرا یک مدل واحد می تواند گفتاری با سبک ها و ویژگی های مختلف بلندگو تولید کند. در ژوئن 2018، گوگل پیشنهاد کرد که از مدل‌های تایید بلندگوهای از پیش آموزش‌دیده به‌عنوان رمزگذار بلندگو برای استخراج تعبیه‌های بلندگو استفاده کند. [۶] رمزگذارهای بلندگو سپس بخشی از مدل های عصبی متن به گفتار می شوند، به طوری که می توانند سبک و ویژگی های گفتار خروجی را تعیین کنند. این رویه به جامعه نشان داده است که می توان تنها از یک مدل برای تولید گفتار با سبک های متعدد استفاده کرد.

صداگذار عصبی ویرایش

Speech synthesis example using the HiFi-GAN neural vocoder

در سنتز گفتار مبتنی بر یادگیری عمیق، رمزگذارهای صوتی عصبی نقش مهمی در تولید گفتار با کیفیت بالا از ویژگی‌های صوتی دارند. مدل WaveNet که در سال 2016 ارائه شد، عملکرد بسیار خوبی در کیفیت گفتار دارد. Wavenet احتمال مشترک یک شکل موج را فاکتور گرفت   به عنوان حاصل ضرب احتمالات مشروط به صورت زیر

 

جایی که   پارامتر مدل شامل بسیاری از لایه های پیچشی اتساع یافته است. بنابراین، هر نمونه صوتی  ، مشروط به نمونه ها در تمام مراحل قبلی است. با این حال، ماهیت رگرسیون خودکار WaveNet روند استنتاج را به طور چشمگیری کند می کند. برای حل این مشکل، Parallel WaveNet [۷] پیشنهاد شد. WaveNet موازی یک مدل مبتنی بر جریان اتورگرسیو معکوس است که با knowledge distillationبا یک مدل WaveNet معلم از قبل آموزش دیده آموزش داده می شود. از آنجایی که چنین مدل‌های مبتنی بر جریان اتورگرسیو معکوس هنگام انجام استنتاج غیر رگرسیون خودکار هستند، سرعت استنتاج سریع‌تر از زمان واقعی است. در همین حال، Nvidia مدل WaveGlow [۸] مبتنی بر جریان را پیشنهاد کرد که می‌تواند گفتار را سریع‌تر از زمان واقعی تولید کند. با این حال، علی رغم سرعت استنتاج بالا، WaveNet موازی محدودیت نیاز به یک مدل WaveNet از پیش آموزش دیده را دارد، به طوری که WaveGlow هفته ها طول می کشد تا با دستگاه های محاسباتی محدود همگرا شود. این مشکل توسط موازی WaveGAN حل شده است، [۹] که یاد می گیرد گفتار را از طریق از دست دادن طیفی با وضوح چندگانه و استراتژی های یادگیری GAN تولید کند.

منابع ویرایش

  1. ۱٫۰ ۱٫۱ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.
  2. Hsu. "Hierarchical Generative Modeling for Controllable Speech Synthesis". arXiv:1810.07217.
  3. Habib. "Semi-Supervised Generative Modeling for Controllable Speech Synthesis". arXiv:1910.01709.
  4. Chung. "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". arXiv:1808.10128.
  5. Ren. "Almost Unsupervised Text to Speech and Automatic Speech Recognition". arXiv:1905.06791.
  6. Jia. "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis". arXiv:1806.04558.
  7. van den Oord. "Parallel WaveNet: Fast High-Fidelity Speech Synthesis". arXiv:1711.10433.
  8. Prenger. "WaveGlow: A Flow-based Generative Network for Speech Synthesis". arXiv:1811.00002.
  9. Yamamoto. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram". arXiv:1910.11480.