پیش‌نویس:شخصی سازی متن به تصویر

"این مقاله در حال ترجمه از ویکی انگلیسی است

لطفا حذف نشود."

شخصی‌سازی متن به تصویر یک امر در یادگیری عمیق برای گرافیک کامپیوتری است که مدل‌های از پیش آموزش‌دیده‌شده‌ی تولید متن به تصویر را تقویت می‌کند. در این کار، یک مدل تولیدی که بر روی داده هایی با مقیاس بزرگ آموزش داده شده است (معمولاً یک مدل پایه )، به گونه ای تطبیق داده می شود که بتواند تصاویری از مفاهیم جدید و ارائه شده توسط کاربر ایجاد کند. ^[۱] ^[۲] این مفاهیم معمولاً در طول آموزش دیده نمی شوند و ممکن است اشیاء خاص (مانند حیوان خانگی کاربر) یا مقوله های انتزاعی تر (سبک هنری جدید ^[۳] یا روابط اشیا ^[۴] ) را نشان دهند.

روش‌های شخصی‌سازی متن به تصویر معمولاً مفهوم جدیدی (شخصی) را به کلمات جدید در واژگان مدل پیوند می‌دهد. سپس می‌توان از این کلمات در پیام‌های آینده برای فراخوانی مفهوم تولید سوژه محور، ^[۵] بازسازی ، انتقال سبک ^[۶] و حتی برای تصحیح سوگیری‌ها در مدل استفاده کرد. برای انجام این کار، مدل‌ها یا دگرنمایی واژه را بهینه می‌کنند، خود مدل تولیدی را به‌خوبی تنظیم می‌کنند ، یا ترکیبی از هر دو رویکرد را به کار می‌گیرند.

فن آوری

شخصی‌سازی متن به تصویر برای اولین بار در اوت 2022 توسط دو اثر همزمان، وارونگی متنی ^[۷] و <a href="https://en.wikipedia.org/wiki/DreamBooth" rel="mw:ExtLink" title="DreamBooth" class="cx-link" data-linkid="25">DreamBooth</a> پیشنهاد شد. ^[۸]

در هر دو مورد، یک کاربر چند تصویر (معمولا 3 تا 5) از یک مفهوم، مانند سگ خود، همراه با یک توصیف درشت از کلاس مفهوم (مانند کلمه "سگ") ارائه می دهد. سپس مدل یاد می گیرد که موضوع را از طریق یک هدف مبتنی بر بازسازی نشان دهد، جایی که انتظار می رود با اشاره به موضوع، تصاویر را از مجموعه اموزشی بازسازی کند.

در وارونگی متنی، مفاهیم شخصی به مدل متن به تصویر با اضافه کردن کلمات جدید به واژگان مدل معرفی می شود. مدل های معمول متن به تصویر کلمات (و گاهی اوقات بخش هایی از کلمات) را به عنوان نشانه ها یا شاخص ها در یک فرهنگ لغت از پیش تعریف شده نشان می دهند. در طول تولید، یک اعلان ورودی به چنین توکن هایی تبدیل می شود که هر کدام به یک "جاسازی کلمه" تبدیل می شوند: یک نمایش بردار پیوسته که برای هر نشانه به عنوان بخشی از اموزش مدل اموخته می شود. Inversion متنی پیشنهاد می کند که یک بردار جدید جاسازی کلمه را برای نشان دادن مفهوم جدید بهینه سازی کند. سپس این بردار جاسازی جدید می تواند به یک رشته انتخاب شده توسط کاربر اختصاص داده شود و هر زمان که اعلان کاربر حاوی این رشته باشد، فراخوانی می شود. ^[۷]

در DreamBooth، به جای بهینه سازی یک بردار کلمه جدید، مدل مولد کامل خود را به خوبی تنظیم شده است. کاربر ابتدا یک توکن موجود را انتخاب می کند، معمولا یکی که به ندرت در اعلان ها ظاهر می شود. سپس خود سوژه توسط یک رشته حاوی این نشانه نشان داده می شود و به دنبال ان یک توصیف کننده درشت از کلاس موضوع است. سپس یک اعلان که سوژه را توصیف می کند، شکل می گیرد: "یک عکس از <token> <class>" (به عنوان مثال "عکس گربه sks" هنگام یادگیری نشان دادن یک گربه خاص). سپس مدل متن به تصویر تنظیم می شود تا پیام های این فرم تصاویری از سوژه تولید کنند. ^[۸]

وارونگی متنی

ایده کلیدی در وارونگی متنی اضافه کردن یک اصطلاح جدید به واژگان مدل انتشار است که مربوط به مفهوم جدید (شخصی) است. وارونگی متنی بهینه سازی بردار تعبیه ان اصطلاح جدید به طوری که با استفاده از ان به عنوان یک متن ورودی، تصاویری را تولید می کند که شبیه به نمونه های تصویر داده شده از مفهوم است. مدل حاصل از هر مفهوم بسیار سبک وزن است: فقط 1K طول دارد، اما موفق به رمزگذاری خواص بصری دقیق مفهوم می شود.

برنامه های افزودنی

چندین رویکرد برای اصلاح و بهبود روش های اصلی پیشنهاد شد. این شامل موارد زیر است.

سازگاری با رتبه پایین (LoRA) - یک تکنیک مبتنی بر آداپتور برای تنظیم کارامد مدل‌ها. ^[۹] در مورد مدل‌های متن به تصویر ، LoRA معمولاً برای اصلاح لایه‌های توجه متقاطع یک مدل انتشار استفاده می‌شود. ^[۱۰]
پرفیوژن - یک روش به روز رسانی رتبه پایین است که همچنین فعال سازی ماتریس کلیدی را در لایه های توجه متقابل مدل انتشار به کلاس درشت مفهوم قفل می کند.. ^[۱۱]
Extended Textual Inversion - تکنیکی که یک کلمه منحصر به فرد را برای هر لایه در شبکه denoising مدل انتشار یاد می گیرد.. ^[۱۲]
روش های مبتنی بر رمزگذار که از یک شبکه عصبی دیگر برای شخصی سازی سریع یک مدل استفاده می کنند. ^[۱۳] ^[۱۴]

روش های شخصی سازی متن به تصویر باید با چندین چالش مقابله کنند. در هسته انها هدف دستیابی به وفاداری بالا به مفهوم شخصی در حالی که حفظ هماهنگی بالا بین محرک های جدید حاوی موضوع و تصاویر تولید شده (معمولا به عنوان "ویرایش پذیری" نامیده می شود).

چالش دیگری که روش های شخصی سازی باید با ان مقابله کنند، الزامات حافظه است. پیاده سازی اولیه روش های شخصی سازی نیاز به بیش از 20 گیگابایت حافظه GPU داشت و رویکردهای اخیر الزامات بیش از 40 گیگابایت را گزارش کرده اند. ^[۱۳] با این حال، بهینه سازی هایی مانند Flash Attention ^[۱۵] از آن زمان این نیاز را به طور قابل توجهی کاهش داده است.

رویکردهایی که کل مدل مولد را تنظیم می کنند نیز ممکن است ایست های بازرسی ایجاد کنند که چندین گیگابایت اندازه دارند و به اشتراک گذاری یا ذخیره بسیاری از مدل ها را دشوار می کند. رویکردهای مبتنی بر جاسازی تنها به چند کیلوبایت نیاز دارند، اما معمولا برای حفظ هویت در حالی که ویرایش پذیری را حفظ می کنند، تلاش می کنند. رویکردهای جدیدتر اهداف تنظیم ترکیبی را پیشنهاد کرده اند که هر دو جاسازی و زیر مجموعه ای از وزن های شبکه را بهینه می کند. این می تواند نیازهای ذخیره سازی را به کمتر از 100 کیلوبایت کاهش دهد در حالی که دستیابی به کیفیت قابل مقایسه با روش های تنظیم کامل است.

در نهایت، فرایندهای بهینه سازی می توانند طولانی باشند و نیاز به چند دقیقه تنظیم برای هر مفهوم جدید دارند. روش های رمزگذار و تنظیم سریع با هدف کاهش این به ثانیه یا کمتر است. ^[۱۶]

منابع

↑ Murphy, Brendan Paul (2022-10-12). "AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?". The Conversation (به انگلیسی). Retrieved 2023-09-14.
↑ "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術". ITmedia NEWS (به ژاپنی). Retrieved 2023-09-14.
↑ Baio, Andy (2022-11-01). "Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model". Waxy.org (به انگلیسی). Retrieved 2023-09-14.
↑ Huang, Ziqi; Wu, Tianxing; Jiang, Yuming; Chan, Kelvin C. K.; Liu, Ziwei (2023). "ReVersion: Diffusion-Based Relation Inversion from Images". arXiv:2303.13495 [cs.CV].
↑ Jr, Edward Ongweso (2022-10-14). "People Are Now Making Fake Selfies With AI". Vice (به انگلیسی). Retrieved 2023-09-20.
↑ Dave James (2022-12-27). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer (به انگلیسی). Retrieved 2023-09-20.
↑ ^۷٫۰ ^۷٫۱ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (2022-09-29). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion" (به انگلیسی). arXiv:2208.01618. {{cite journal}}: Cite journal requires |journal= (help)
↑ ^۸٫۰ ^۸٫۱ Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir (2023). "DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation" (به انگلیسی): 22500–22510. arXiv:2208.12242. {{cite journal}}: Cite journal requires |journal= (help)
↑ Singh, Niharika (2023-02-18). "HuggingFace Publishes LoRA Scripts For Efficient Stable Diffusion Fine-Tuning". MarkTechPost (به انگلیسی). Retrieved 2023-09-14.
↑ Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu (2021-10-06). "LoRA: Low-Rank Adaptation of Large Language Models" (به انگلیسی). arXiv:2106.09685. {{cite journal}}: Cite journal requires |journal= (help)
↑ Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). "Key-Locked Rank One Editing for Text-to-Image Personalization". Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Proceedings. SIGGRAPH '23. New York, NY, USA: Association for Computing Machinery. pp. 1–11. doi:10.1145/3588432.3591506. ISBN 979-8-4007-0159-7. S2CID 258436985.
↑ Lorenzi, Daniele (2023-07-22). "Meet P+: A Rich Embeddings Space for Extended Textual Inversion in Text-to-Image Generation". MarkTechPost (به انگلیسی). Retrieved 2023-08-29.
↑ ^۱۳٫۰ ^۱۳٫۱ Gal, Rinon; Arar, Moab; Atzmon, Yuval; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2023-07-26). "Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models". ACM Transactions on Graphics. 42 (4): 150:1–150:13. arXiv:2302.12228. doi:10.1145/3592133. ISSN 0730-0301.
↑ Wei. "ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation". arXiv:2302.13848.
↑ Dao. "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness". arXiv:2205.14135.
↑ Shi. "InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning". {{cite arxiv}}: |arxiv= required (help)

[1] Murphy, Brendan Paul (2022-10-12). "AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?". The Conversation (به انگلیسی). Retrieved 2023-09-14.

[2] "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術". ITmedia NEWS (به ژاپنی). Retrieved 2023-09-14.

[3] Baio, Andy (2022-11-01). "Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model". Waxy.org (به انگلیسی). Retrieved 2023-09-14.

[4] Huang, Ziqi; Wu, Tianxing; Jiang, Yuming; Chan, Kelvin C. K.; Liu, Ziwei (2023). "ReVersion: Diffusion-Based Relation Inversion from Images". arXiv:2303.13495 [cs.CV].

[5] Jr, Edward Ongweso (2022-10-14). "People Are Now Making Fake Selfies With AI". Vice (به انگلیسی). Retrieved 2023-09-20.

[6] Dave James (2022-12-27). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer (به انگلیسی). Retrieved 2023-09-20.

[:0-7] ۷٫۰ ^۷٫۱ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (2022-09-29). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion" (به انگلیسی). arXiv:2208.01618. {{cite journal}}: Cite journal requires |journal= (help)

[:1-8] ۸٫۰ ^۸٫۱ Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir (2023). "DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation" (به انگلیسی): 22500–22510. arXiv:2208.12242. {{cite journal}}: Cite journal requires |journal= (help)

[9] Singh, Niharika (2023-02-18). "HuggingFace Publishes LoRA Scripts For Efficient Stable Diffusion Fine-Tuning". MarkTechPost (به انگلیسی). Retrieved 2023-09-14.

[10] Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu (2021-10-06). "LoRA: Low-Rank Adaptation of Large Language Models" (به انگلیسی). arXiv:2106.09685. {{cite journal}}: Cite journal requires |journal= (help)

[:2-11] Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). "Key-Locked Rank One Editing for Text-to-Image Personalization". Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Proceedings. SIGGRAPH '23. New York, NY, USA: Association for Computing Machinery. pp. 1–11. doi:10.1145/3588432.3591506. ISBN 979-8-4007-0159-7. S2CID 258436985.

[12] Lorenzi, Daniele (2023-07-22). "Meet P+: A Rich Embeddings Space for Extended Textual Inversion in Text-to-Image Generation". MarkTechPost (به انگلیسی). Retrieved 2023-08-29.

[:3-13] ۱۳٫۰ ^۱۳٫۱ Gal, Rinon; Arar, Moab; Atzmon, Yuval; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2023-07-26). "Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models". ACM Transactions on Graphics. 42 (4): 150:1–150:13. arXiv:2302.12228. doi:10.1145/3592133. ISSN 0730-0301.

[14] Wei. "ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation". arXiv:2302.13848.

[15] Dao. "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness". arXiv:2205.14135.

[16] Shi. "InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning". {{cite arxiv}}: |arxiv= required (help)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]