مدل متن به تصویر

مدل متن به تصویر یک مدل یادگیری ماشینی است که یک توصیف زبان طبیعی را به عنوان ورودی می گیرد و تصویری مطابق با آن توصیف تولید می کند. این مدل ها در اواسط دهه 2010 در نتیجه پیشرفت در شبکه های عصبی عمیق شروع به توسعه کردند. در سال 2022، خروجی به روز ترین مدل‌های تبدیل متن به تصویر، مانند مدل DALL-E 2 از Open AI ، Imagen از Google Brain و Stable Diffusion از StabilityAI به کیفیت عکس های واقعی و نقاشی های انسانی نزدیک تر شدند.

هشت تصویر که توسط AlignDRAW(2015) از جمله ی "یک تابلوی ایست در آسمان های آبی پرواز میکند" به وجود آمده اند. (تصاویر برای نشان دادن جزئیات بزرگنمایی شده اند)[۱]

مدل‌های متن به تصویر عموماً یک مدل زبان ، که متن ورودی را به یک نمایش پنهان تبدیل می‌کند، و یک مدل تصویر تولیدی که یک تصویر براساس آن نمایش تولید می‌کند را ترکیب میکنند. مؤثرترین مدل‌ها عموماً بر روی مقادیر انبوهی از داده‌های تصویر و متن استخراج شده از وب آموزش داده شده‌اند.[۲]

تاریخچه ویرایش

 
تصویری بر اساس عبارت ورودی «فضانوردی سوار بر اسب، اثرهیروشیگه »، که توسط Stable Diffusion ، یک مدل متن به تصویر در مقیاس بزرگ منتشر شده در 2022 ایجاد شد.

قبل از ظهور یادگیری عمیق، تلاش‌ها برای ساخت مدل‌های متن به تصویر به ساخت کلاژ با کنار هم قرار دادن تصاویر تشکیل دهنده ی موجود، مانند پایگاه داده‌های کلیپ آرت محدود می‌شد.[۳][۴]

برعکس این عمل که نوشتن شرح تصویر نام دارد ، قابل انجام‌تر بود و تعدادی از مدل‌های یادگیری عمیق شرح تصویر، قبل از اولین مدل‌های متن به تصویر وجود داشتند.[۵]

اولین مدل مدرن متن به تصویر، alignDRAW، در سال 2015 توسط محققان دانشگاه تورنتو معرفی شد. alignDRAW معماری DRAW را که قبلاً معرفی شده بود (که از رمزگذار خودکار متغیر تکراری با مکانیزم توجه استفاده می‌کرد) گسترش داد تا به دنباله‌های متنی مشروط شود. تصاویر تولید شده توسط alignDRAW تار و غیر واقعی بودند، اما مدل قادر بود به اشیایی که در داده‌های آموزشی نشان داده نشده‌اند تعمیم یابد (مانند اتوبوس مدرسه ی قرمز رنگ)، و به‌طور مناسب از پس ورودی های جدید مانند "تابلوی علامت توقف که در حال پرواز در آسمان آبی است " برآمد. این موضوع نشان می دهد که مدل صرفاً داده های مجموعه آموزشی را«به خاطر » نمی سپرده است.

در سال 2016، رید، آکاتا، یان و همکاران. اولین کسانی بودند که از شبکه های متخاصم مولد برای کار متن به تصویر استفاده کردند. آن ها با مدل‌هایی که بر روی مجموعه‌داده‌های محدود و مخصوص به حوزه های خاص آموزش دیده بودند، توانستند تصاویر « قابل قبول بصری» از پرندگان و گل‌ها را از زیرنویس‌هایی مانند «پرنده‌ای تماماً سیاه با یک منقار ضخیم و گرد متمایز» تولید کنند. یک مدل آموزش دیده بر روی مجموعه داده های متنوع تر COCO ، تصاویری را تولید کرد که "از دور... دلگرم کننده"، اما فاقد انسجام در جزئیات بودند. سیستم هایی که بعدا به وجود آمدند عبارتند از VQGAN+CLIP، XMC-GAN , و GauGAN2.

یکی از اولین مدل‌های تبدیل متن به تصویر که توجه عموم را به خود جلب کرد، DALL-E OpenAI بود، یک سیستم ترانسفورماتور که در ژانویه 2021 معرفی شد. یک مدل جانشین که قادر به تولید تصاویر پیچیده‌تر و واقعی‌تر بود با نام DALL-E 2، در آوریل 2022 رونمایی شد، و پس از آن Stable Diffusion به طور عمومی در آگوست 2022 منتشر شد

دیگر مدل‌های تبدیل متن به تصویرعبارت اند ازپلت‌فرم‌های متن به ویدیوی مبتنی بر مدل زبان مانند Runway، Make-A-Video، Imagen Video، [۶]Midjourney و Phenaki که می‌توانند از ورودی‌های متن و/یا متن/تصویر، ویدیو تولید کنند.[۷]

معماری و آموزش ویرایش

مدل های متن به تصویر با استفاده از معماری های مختلف ساخته شده اند. مرحله رمزگذاری متن ممکن است با یک شبکه عصبی تکراری مانند شبکه حافظه کوتاه مدت (LSTM) انجام شود، اگرچه مدل‌های ترانسفورماتور از آن زمان به گزینه محبوب‌تری تبدیل شده‌اند. برای مرحله تولید تصویر، شبکه‌های متخاصم مولد مشروط معمولا مورد استفاده قرار می‌گیرند و مدل‌های انتشار نیز در سال‌های اخیر به یک گزینه محبوب تبدیل شده‌اند. به جای آموزش مستقیم یک مدل برای خروجی یک تصویر با وضوح بالا مشروط به جاسازی متن، یک تکنیک رایج این است که یک مدل را برای تولید تصاویر با وضوح پایین آموزش داده، و از یک یا چند مدل یادگیری عمیق کمکی برای ارتقاء آن استفاده شود، تا به آن جزئیات اضافه کند.

مدل‌های متن به تصویر بر روی مجموعه داده‌های بزرگ به صورت جفت (متن، تصویر) آموزش داده می‌شوند که اغلب از وب جمع آوریمی‌شوند. Google Brain با مدل Imagen 2022 خود نتایج مثبتی را از استفاده از یک مدل زبان بزرگ که به طور جداگانه بر روی یک مجموعه فقط متنی آموزش داده شده بود (که وزن‌های آن متعاقباً منجمد شده بود) گزارش کرد، که از رویکرد استاندارد قبلی فاصله گرفت.[۸]

مجموعه داده ها ویرایش

 
نمونه‌هایی از تصاویر و زیر نویس ها از سه مجموعه داده عمومی که معمولاً برای آموزش مدل‌های متن به تصویر استفاده می‌شوند.

آموزش یک مدل متن به تصویر نیاز به مجموعه داده ای از تصاویر همراه با زیرنویس متن دارد. یکی از مجموعه داده‌هایی که معمولاً برای این منظور استفاده می‌شود COCO (Common Objects in Context) است. COCO که توسط مایکروسافت در سال 2014 منتشر شد، شامل حدود 123000 تصویر است که انواع مختلفی از اشیاء را با پنج عنوان در هر تصویر، که توسط حاشیه‌نویس‌های انسانی ایجاد شده‌اند، به تصویر می‌کشد، Oxford-120 Flowers و CUB-200 Birds مجموعه داده های کوچکتری از هر کدام حدود 10000 تصویر هستند که به ترتیب به گل ها و پرندگان محدود می شوند. آموزش یک مدل متن به تصویر با کیفیت بالا با این مجموعه داده‌ها، به دلیل دامنه محدود موضوع آنها، کمتر دشوار تلقی می‌شود.[۹]

ارزیابی ویرایش

ارزیابی و مقایسه کیفیت مدل‌های متن به تصویر یک مشکل چالش برانگیز است و شامل ارزیابی چندین ویژگی مطلوب میباشد. برای هر مدل تصویر تولیدی، مطلوب است که تصاویر تولید شده واقع گرایانه باشند (به این معنا که به نظر می رسد تا حد قابل قبولی متعلق به مجموعه آموزشی باشند) و در سبک خود متنوع باشند. یک نیازمندی خاص برای مدل‌های متن به تصویر این است که تصاویر تولید شده از نظر معنایی با زیرنویس‌های متنی که برای تولید آن‌ها استفاده می‌شوند همخوانی داشته باشند. تعدادی روش برای ارزیابی این کیفیت ها ابداع شده است، برخی خودکار و برخی دیگر بر اساس قضاوت انسان.

یک معیار الگوریتمی رایج برای ارزیابی کیفیت و تنوع تصویر، امتیاز اولیه (IS) است، که بر اساس توزیع برچسب‌های پیش‌بینی‌شده توسط یک مدل طبقه‌بندی تصویر Inceptionv3 از پیش آموزش‌دیده و اعمال شده بر بر نمونه‌ای از تصاویر تولید شده توسط مدل متن به تصویر میباشد. امتیاز زمانی افزایش می‌یابد که مدل طبقه‌بندی تصویر یک برچسب واحد را با احتمال زیاد پیش‌بینی کند، طرحی که به نفع تصاویر تولید شده ی «متمایز» است. یکی دیگر از معیارهای محبوب، فاصله اولیه فریشت مربوطه است که توزیع تصاویر تولید شده و تصاویر آموزشی واقعی را با توجه به ویژگی های استخراج شده توسط یکی از لایه های نهایی یک مدل طبقه بندی تصویر از پیش آموزش دیده مقایسه می کند.[۱۰]

 
عکس هوش مصنوعی Midjourney

تاثیر و کاربردها ویرایش

 

تصاویر تولید شده با مدل متن بازStable Diffusion

در آگوست ۲۰۲۲ هوش مصنوعی متن به تصویر جایزه ی مقام اول را در یک مسابقه ی هنر دیجیتالی از آن خود کرد(به طور خاص در دسته بندی نوظهور هنرمند دیجیتالی مسابقه ی سالانه‌ی هنر کلورادو استیت فیر با ۳۰۰ دلار جایزه)

در همان زمان یک متخصص نتیجه گرفت که هنر هوش مصنوعی درحال حاضر همه جا هست. در حالی که متخصصین هم نمیدانستند این به چه معناست. یک منبع خبری تعیین کرد که هنر هوش مصنوعی بسیار فراگیر میشود و گزارشی در مورد مشکلات ک‍پی رایت و اتوماتیک سازی هنرمندان حرفه ای ارایه داد. یک منبع خبری دیگر در مورد دیپ فیک ها ابراز نگرانی کرد. یک مجله احتمال ایجاد انواع جدید ابراز هنر را بیان کرد و یک سرمقاله تاکید کرد که این موضوع میتواند به عنوان یک افزایش توانایی انسان دیده شود.

مثال های این افزایش ها میتواند شامل امکان افزایش ژانرهای خاص غیرتجاری (مانند انواع مختلف سایبر پانک مثل سولار پانک) توسط تازه کارها، سرگرمی جدید، بازی های نوین و خلاقانه‌ی کودکی، ساخت سریع نمونه های آزمایشی افزایش دسترسی به ایجاد هنر و خروجی هنر به ازای تلاش و یا هزینه یا زمان باشد یعنی توسط ایجاد پیش نویس ها، منابع الهام، اصلاح پیش نویس ها و اجزای تصاویر.

رسانه مصنوعی که شامل هنر هوش مصنوعی است، در 2022 به عنوان یک روند بزرگ تکنولوژی که کسب و کار را تحت تاثیر قرار می دهد، معرفی شده است.[۱۱]



همچنین ببینید ویرایش

منابع ویرایش

  1. Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (February 29, 2016). "Generating Images from Captions with Attention" (PDF). International Conference on Learning Representations.
  2. Vincent، James (۲۰۲۲-۰۵-۲۴). «All these images were generated by Google's latest text-to-image AI». The Verge (به انگلیسی). دریافت‌شده در ۲۰۲۳-۰۲-۰۲.
  3. «Adversarial Neural Network» (PDF).
  4. «Text-to-picture synthesis» (PDF).
  5. «Generating Images from Captions with Attention».
  6. insiyak (۲۰۲۴-۰۱-۰۵). «How to Use Midjourney on Discord: (Tutorial 1) step-by-step Guide». Almoco (به انگلیسی). دریافت‌شده در ۲۰۲۴-۰۲-۰۹.
  7. Elgan, Mike (2022-11-01). "How 'synthetic media' will transform business forever". Computerworld (به انگلیسی). Retrieved 2023-02-02.
  8. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs].
  9. Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (به انگلیسی). 144: 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080.
  10. Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (به انگلیسی). 144: 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080.
  11. Elgan, Mike (2022-11-01). "How 'synthetic media' will transform business forever". Computerworld (به انگلیسی). Retrieved 2023-02-02.