مدل‌‌های انتشاری

مدل‌های انتشاری (به انگلیسی: Diffusion Models) در یادگیری ماشینی، دسته‌ای از مدل‌های متغیر پنهان (به انگلیسی: Latent Variable Models) هستند. این مدل‌ها نوعی زنجیره مارکوف هستند که با استفاده از استنباط بیزی تغییراتی آموزش داده می‌شوند.[۱] هدف مدل‌های انتشاری، یادگیری ساختار پنهان یک مجموعه داده با مدل‌سازی روشی است که در آن نقاط داده در فضای پنهان (به انگلیسی: latent space) منتشر می‌شوند. در بینایی ماشین، این یعنی یک شبکه عصبی آموزش داده می‌شود تا با یادگیری معکوس فرایند انتشاری، با شروع از نویز گاوسی به تصاویر اصلی برسد.[۲][۳]

تاریخچه

ویرایش

مدل‌های انتشاری در سال ۲۰۱۵ با ایده‌گرفتن از ترمودینامیک غیرتعادلی معرفی شدند.

مدل‌های انتشاری خانواده‌ای از مدل‌های مولد احتمالی هستند که به تدریج داده‌ها را با اضافه‌کردن نویز تخریب می‌کنند، سپس یادمی‌گیرند که این فرایند را برای تولید نمونه معکوس کنند. یک مدل انتشاری از دو زنجیره مارکوف استفاده می‌کند: یک زنجیره مستقیم که داده‌ها را به‌تدریج به نویز تبدیل می‌کند و یک زنجیره معکوس که نویز را به داده تبدیل می‌کند. اولی معمولاً با هدف تبدیل هر توزیع داده‌ای به یک توزیع پیشین ساده (مثلاً گاوسی استاندارد) به صورت دستی طراحی می‌شود، در حالی که زنجیره مارکوف دوم با یادگیری هسته‌های انتقال توسط شبکه‌های عصبی عمیق، اولی را معکوس می‌کند.[۴]

جزئیات

ویرایش

فرایند انتشار مستقیم

ویرایش

با داشتن یک نقطه داده نمونه‌برداری‌شده از یک توزیع داده واقعی  ، فرایند انتشار مستقیم (به انگلیسی: forward diffusion process) را این‌گونه تعریف می‌کنیم که در آن مقدار کمی نویز گاوسی را در   گام به نمونه ورودی اضافه می‌کنیم تا نمونه‌های نویزدار   تولید شود. اندازه گام‌ها توسط یک برنامه واریانس   کنترل می‌شود.

 

نمونه داده به تدریج ویژگی‌های قابل مشاهده خود را با بزرگتر شدن گام   از دست می‌دهد. درنهایت وقتی  ،   معادل یک توزیع گاوسی همسان‌گرد خواهد شد.


یک ویژگی خوب فرایند فوق این است که می‌توانیم   را در هر گام دلخواه   به صورت فرم بسته زیر با فرض   و   محاسبه کنیم:[۵]

 

توجه کنید که وقتی دو توزیع نرمال با واریانس‌های مختلف،   و   ادغام می‌کنیم، توزیع جدید   خواهد بود. در رابطه بالا انحراف معیار برابر خواهد بود با:  

فرایند انتشار معکوس

ویرایش

اگر بتوانیم فرایند بالا را معکوس کنیم و از   نمونه‌برداری کنیم، می‌توانیم نمونه واقعی را از ورودی نویز گاوسی   دوباره ایجاد کنیم. توجه کنید که اگر   به اندازه کافی کوچک باشد،   نیز گوسی خواهد بود. متأسفانه، ما نمی‌توانیم   را به راحتی تخمین بزنیم زیرا برای این کار باید از کل مجموعه‌داده استفاده کنیم، بنابراین باید مدلِ   را برای تقریب این احتمالات شرطی به منظور اجرای فرایند انتشار معکوس یاد بگیریم.

 

احتمال شرطی معکوس زمانی قابل حل است که روی   شرط شود:

 

با اعمال قاعده بیز داریم:

 

با توجه به تابع چگالی توزیع گاوسی، میانگین و واریانس را می‌توان به صورت زیر به‌دست‌آورد:

 

می‌دانیم که   و با جایگذاری در عبارات بالا خواهیم داشت:

 

تابع هزینه برای آموزش فرایند انتشاری

ویرایش

برای تقریب توزیع احتمال شرطی در فرایند انتشار معکوس   نیاز به یادگیری یک شبکه عصبی داریم. درواقع می‌خواهیم   را آموزش دهیم که   را پیش‌بینی کند. از آن‌جایی که   به‌عنوان ورودی مدل هنگام آموزش داده می‌شود، می‌توانیم با تغییر عبارت نویز گاوسی   را از ورودی در گام   پیش‌بینی کنیم:

 

پس تابع هزینه برای کمینه کردن اختلاف از   به صورت زیر خواهد بود:

 

در مقاله[۱] نشان داده شده‌است که آموزش مدل انتشاری با تابع هزینه زیر بهتر انجام می‌شود:

 

و تابع هزینه نهایی به صورت   خواهد بود (  یک مقدار ثابت مستقل از   است).

محدودیت‌ها

ویرایش

فرایند نمونه‌گیری از DDPM با دنبال‌کردن زنجیره مارکوف فرایند انتشار معکوس بسیار کند است، زیرا تعداد گام‌ها   می‌تواند تا یک یا چند هزار مرحله باشد. در[۶] گفته شده «به عنوان مثال، نمونه‌گیری ۵۰ هزار عکس با اندازه ۳۲ × ۳۲ از یک DDPM حدود ۲۰ ساعت طول می‌کشد، اما انجام این کار با یک GAN روی یک پردازنده گرافیکی Nvidia 2080 Ti کمتر از یک دقیقه زمان می‌برد.»

کاربرد

ویرایش

مدل‌هایی انتشاری برای تولید[۶][۷][۸]، بخش‌بندی[۹][۱۰]، فراتفکیک‌پذیری[۱۱]، تغییر[۱۲][۱۳][۱۴][۱۵] و تعمیر[۱۲][۱۶] (به انگلیسی: inpainting) تصاویر به کار می‌روند. همچنین در تولید ویدئو[۱۷]، تشخیص ناهنجاری[۱۸]، تحلیل تصاویر پزشکی[۱۹] و بینایی سه‌بعدی[۲۰] کاربرد دارد.

مدل‌های انتشاری همچنین برای تولید و ترجمه متن[۲۱][۲۲] استفاده می‌شوند.

جستارهای وابسته

ویرایش

منابع

ویرایش
  1. ۱٫۰ ۱٫۱ Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 June 2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. arXiv:2006.11239.
  2. Song, Yang; Ermon, Stefano (2020). "Improved Techniques for Training Score-Based Generative Models". Advances in Neural Information Processing Systems. arXiv:2006.09011.
  3. Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. arXiv:2111.14822.
  4. Yang, Ling; Zhang, Zhilong (2022). "Diffusion models: A comprehensive survey of methods and applications". arXiv.
  5. Weng, Lilian (Jul 2021). "What are diffusion models?". lilianweng.github.io.
  6. ۶٫۰ ۶٫۱ Song, Jiaming; Meng, Chenlin; Ermon, Stefano (2020). "Denoising diffusion implicit models". arxiv. arXiv:2010.02502.
  7. Nichol, Alexander Quinn; Dhariwal, Prafulla (2021). "Improved denoising diffusion probabilistic models". International Conference on Machine Learning Systems.
  8. Prafulla, Dhariwal; Nichol, Alexander (2021). "Diffusion models beat gans on image synthesisDiffusion models beat gans on image synthesis". Advances in Neural Information Processing Systems.
  9. Amit, Tomer; Nachmani, Eliya (2021). "Segdiff: Image segmentation with diffusion probabilistic models". arXiv.
  10. Wang, Weilun; Bao, Jianmin (2022). "Semantic image synthesis via diffusion models". arXiv.
  11. Saharia, Chitwan; Ho, Jonathan (2022). "Image super-resolution via iterative refinement". IEEE Transactions on Pattern Analysis and Machine Intelligence.
  12. ۱۲٫۰ ۱۲٫۱ Batzolis, Georgios; Stanczuk, Jan (2021). "Conditional image generation with score-based diffusion models". arXiv. arXiv:2111.13606.
  13. Kawar, Bahjat; Elad, Michael (2022). "Denoising Diffusion Restoration Models". ICLR Workshop on Deep Generative Models for Highly Structured Data.
  14. Kim, Gwanghyun; Kwon, Taesung (2022). "DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
  15. Avrahami, Omri; Lischinski, Dani (2021). "Improved denoising diffusion probabilistic models". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
  16. Lugmayr, Andreas; Danelljan, Martin (2022). "Repaint: Inpainting using denoising diffusion probabilistic models". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
  17. He, Yingqing; Yang, Tianyu (2022). "Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths". arXiv.
  18. Wolleb, Julia; Bieder, Florentin (2022). "Diffusion Models for Medical Anomaly Detection". arXiv. arXiv:2203.04306.
  19. Dar, Salman UH; Öztürk, Şaban (2022). "Adaptive diffusion priors for accelerated mri reconstruction". arXiv. arXiv:2207.05876.
  20. Saadatnejad, Saeed; Rasekh, Ali; Mofayezi, Mohammadreza; Medghalchi, Yasamin; Rajabzadeh, Sara; Mordan, Taylor; Alahi, Alexandre (2022). "A generic diffusion-based approach for 3D human pose prediction in the wild". arXiv. arXiv:2210.05669.
  21. Nachmani, Eliya; Dovrat, Shaked (2021). "Zero-Shot Translation using Diffusion Models". arXiv.
  22. Lovelace, Justin; Kishore, Varsha (2022). "Latent Diffusion for Language Generation". arXiv.