رؤیای عمیق (به انگلیسی: DeepDream) یک برنامهٔ بینایی کامپیوتر ساخته شده توسط یکی از مهندسین گوگل،Alexander Mordvintsev است که از شبکه‌های عصبی کانولوشن برای پیدا کردن و تقویت الگوها در تصاویر از طریق الگوریتم پاریدولیا استفاده می‌کند، در نتیجه یک ظاهر توهم زای رویامانند در پردازش عمدی تصاویر ایجاد می‌کند.[۱][۲][۳]

برنامه گوگل اصطلاح «رؤیا دیدن» (عمیق) را تعمیم داد تا هم چنین به نسل تصاویری که فعال سازی‌های دلخواه را در یک شبکه عمیق آموزش دیده تولید می‌کنند، اشاره کند؛ و این اصطلاح اکنون به مجموعه ای از رویکردهای مرتبط اشاره دارد.

تاریخ

ویرایش

نرم‌افزار DeepDream سرچشمه گرفته از یک شبکه پیچیدهٔ عمیق با عنوان «تلقین» برگرفته از فیلمی با همان نام،[۱][۲][۳] برای چالش تشخیص بصری شبکه تصویری در ابعاد بزرگ (ILSVRC) در سال 2014[۳] و منتشر شده در ژوئیه ۲۰۱۵، توسعه یافت.

ایده و نام رؤیا دیدن در سال ۲۰۱۵ به لطف برنامه DeepDream گوگل در اینترنت محبوب شد. این ایده از ابتدای تاریخ شبکه‌های عصبی شکل گرفته‌است[۴] و روش‌های مشابهی برای ترکیب بافت‌های بصری استفاده شده‌اند.[۵] ایده‌های تجسم مرتبط توسط تعدادی گروه تحقیقاتی (قبل از کار گوگل) توسعه یافتند.[۶][۷]

پس از آنکه Google تکنیک‌های خود را منتشر و کد خود را منبع باز[۸] (به انگلیسی: open source) کرد، تعدادی از ابزارها در قالب سرویس‌های وب، برنامه‌های کاربردی موبایل و نرم‌افزار دسکتاپ در بازار ظهور کردند تا کاربران بتوانند عکس‌های خود را تغییر دهند.[۹]

تصویر یکسان قبل (چپ) و بعد (راست) از ۵۰ بار تکرار الگوریتم DeepDream. شبکه آموزش داده شده که سگ‌ها را تشخیص دهد.

این نرم‌افزار به منظور شناسایی چهره‌ها و دیگر الگوهای موجود در تصاویر، به منظور طبقه‌بندی خودکار تصاویر، طراحی شده‌است.[۱۰] با این حال، هنگامی که آموزش داده شود، شبکه همچنین می‌تواند به صورت معکوس اجرا می‌شود اگر از آن بخواهیم که تصویر اصلی را به آرامی تنظیم کند تا نورون خروجی داده شده (مثلا برای چهره‌ها یا حیوانات خاص)، نمره دقیق تری به دست آورد. این امر می‌تواند برای تجسم در راستای درک بهتر ساختار نوظهور شبکه عصبی استفاده شود، و همان مبنای مفهوم DeepDream است. با این حال، پس از تکرار کافی، حتی تصاویری که در ابتدا خصوصیات مطلوب ما را نداشتند، به اندازه کافی تنظیم می‌شوند تا شکلی از پاریدولیا حاصل شود که تصاویری توهم زا و سورئال به صورت الگوریتمی تولید کند. بهینه‌سازی به Back-propagation شباهت دارد. (همان انتشار معکوس است)، با این حال به جای تنظیم وزن‌های شبکه، وزن‌ها ثابت شده و ورودی تنظیم می‌شود.

به عنوان مثال، می‌توان یک تصویر موجود را به صورتی تغییر داد که بیشتر «گربه مانند» باشد، و تصویر بهبود یافتهٔ حاصل می‌تواند ورودی جدیدی برای فرایند باشد.[۲] این کاربرد مشابه فعالیت‌های جستجوی حیوانات یا الگوهای دیگر در ابرها است.

با اعمال تابع کاهش گرادیان به‌طور مستقل روی هر پیکسل ورودی می‌توان تصاویری ساخت که در آن‌ها پیکسل‌های مجاور با هم ارتباط کمی دارند، بنابراین تصویر حاصل دارای اطلاعات فرکانس بالا است. با اضافه کردن یک prior یا تنظیم کننده که ورودی‌های دارای آمار تصویر طبیعی (بدون اولویت برای یک تصویر خاص) یا صاف را ترجیح می‌دهد، می‌توان تصاویر تولید شده را به مقدار زیادی بهبود داد.[۷][۱۱][۱۲] به عنوان مثال، Mahendran و همکاران،[۱۱] از تنظیم کننده تغییرات کامل استفاده کرد که تصاویری که تکه ای ثابت هستند را ترجیح می‌دهد. تنظیم کننده‌های مختلف در ادامه بررسی می‌شوند.[۱۲] به تازگی یک اکتشاف عمیق بصری از ویژگی‌های تجسم گرایی و تکنیک‌های تنظیم منتشر شده‌است.[۱۳]

شباهت ذکر شدهٔ شبیه‌سازی به LSD - و توهم ناشی از psilocybin - نشان دهنده یک شباهت کاربردی بین شبکه‌های عصبی مصنوعی و لایه‌های خاصی از قشر بینایی است.[۱۴]

کاربرد

ویرایش
 
مرحله آخر DeepDream انجام شده روی تصویر سه مرد در استخر

ایدهٔ رؤیا دیدن را می‌توان روی نورونهای لایهٔ پنهان (داخلی)، اعمال کرد، به غیر از آنهایی که در لایهٔ خروجی هستند. این امر اجازه می‌دهد تا نقش و نمای قسمت‌های مختلف شبکه را شناسایی کنیم.[۱۲] همچنین امکان‌پذیر است ورودی را بگونه ای بهینه‌سازی کنیم که برای یک نورون تک (این کاربرد معمولاً فرایند بیشینه سازی نامیده می‌شود)[۱۵] یا یک لایه کامل از نورون‌ها کافی باشد.

از آنجایی که این تکنیک رویاپردازی اغلب برای تجسم شبکه‌ها یا تولید هنر کامپیوتری مورد استفاده قرار می‌گیرد، به تازگی پیشنهاد شده‌است که اضافه کردن ورودی‌های «رؤیایی» به مجموعه آموزشی، می‌تواند زمان آموزشی برای انتزاع در علوم کامپیوتر را بهبود بخشد.[۱۶]

همچنین می‌توان نشان داد که مدل DeepDream دارای برنامه‌های کاربردی در زمینه تاریخ هنر می‌باشد.[۱۷]

DeepDream در ویدئو موسیقی "Doing It for the money" از گروه "Foster the people"مورد استفاده قرار گرفت.[۱۸]

جستارهای وابسته

ویرایش
  • تشخیص ویژگی (بینایی کامپیوتر)
  • بافت رویه ای
  • ترکیب بافت

منابع

ویرایش
  1. ۱٫۰ ۱٫۱ Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). "DeepDream - a code example for visualizing Neural Networks". Google Research. Archived from the original on 2015-07-08.
  2. ۲٫۰ ۲٫۱ ۲٫۲ Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). "Inceptionism: Going Deeper into Neural Networks". Google Research. Archived from the original on 2015-07-03.
  3. ۳٫۰ ۳٫۱ ۳٫۲ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). "Going Deeper with Convolutions". Computing Research Repository. arXiv:1409.4842. Bibcode:2014arXiv1409.4842S.
  4. Lewis, J.P. (1988). Creation by refinement: a creativity paradigm for gradient descent learning networks. IEEE International Conference on Neural Networks. doi:10.1109/ICNN.1988.23933.
  5. Portilla, J; Simoncelli, Eero (2000). "A parametric texture model based on joint statistics of complex wavelet coefficients". International Journal of Computer Vision. doi:10.1023/A:1026553619983.
  6. Erhan, Dumitru. (2009). Visualizing Higher-Layer Features of a Deep Network (PDF). International Conference on Machine Learning Workshop on Learning Feature Hierarchies.
  7. ۷٫۰ ۷٫۱ Simonyan, Karen; Vedaldi, Andrea; Zisserman, Andrew (2014). Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. International Conference on Learning Representations Workshop.
  8. deepdream در گیت‌هاب
  9. Daniel Culpan (2015-07-03). "These Google "Deep Dream" Images Are Weirdly Mesmerising". Wired. Archived from the original on 8 May 2016. Retrieved 2015-07-25.
  10. Rich McCormick (7 July 2015). "Fear and Loathing in Las Vegas is terrifying through the eyes of a computer". The Verge. Retrieved 2015-07-25.
  11. ۱۱٫۰ ۱۱٫۱ Mahendran, Aravindh; Vedaldi, Andrea (2015). Understanding Deep Image Representations by Inverting Them. IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1412.0035. doi:10.1109/CVPR.2015.7299155.
  12. ۱۲٫۰ ۱۲٫۱ ۱۲٫۲ Yosinski, Jason; Clune, Jeff; Nguyen, Anh; Fuchs, Thomas (2015). Understanding Neural Networks Through Deep Visualization. Deep Learning Workshop, International Conference on Machine Learning (ICML) Deep Learning Workshop.
  13. Olah, Chris; Mordvintsev, Alexander; Schubert, Ludwig (2017-11-07). "Feature Visualization". Distill (به انگلیسی). 2 (11). doi:10.23915/distill.00007. ISSN 2476-0757.
  14. LaFrance, Adrienne. "When Robots Hallucinate". The Atlantic. Retrieved 24 September 2015.
  15. Nguyen, Anh; Dosovitskiy, Alexey; Yosinski, Jason; Brox, Thomas (2016). Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. arxiv. arXiv:1605.09304. Bibcode:2016arXiv160509304N.
  16. Arora, Sanjeev; Liang, Yingyu; Tengyu, Ma (2016). Why are deep nets reversible: A simple theory, with implications for training. arxiv. arXiv:1511.05653. Bibcode:2015arXiv151105653A.
  17. Spratt, Emily L. (2017). "Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image" (PDF). Kunsttexte. Humboldt-Universität zu Berlin. 4.
  18. fosterthepeopleVEVO (2017-08-11), Foster The People - Doing It for the Money, retrieved 2017-08-15

پیوند به بیرون

ویرایش