مدل زبانی بزرگ

(تغییرمسیر از مدل‌های زبانی بزرگ)

مدل زبانی بزرگ [پاورقی ۱] (اختصاری LLM) یا ال‌ال‌ام، سامانه‌های هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شده‌اند. آنها «بزرگ» نامی می‌شوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان می‌دهد الگوهای پیچیده در داده‌های زبان را پردازش کنند.

ال‌ال‌ام‌ها دسته‌ای از مدل‌های یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدل‌ها این توانایی ها را با یادگیری روابط آماری از اسناد متنی در طی یک فرآیند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست می آورند.[۱] آنها بر روی مجموعه داده‌های گسترده‌ای آموزش دیده‌اند که اغلب از اینترنت جمع‌آوری می‌شوند، و می‌تواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکی‌پدیا، کتاب‌ها، موضوعات رسانه‌های اجتماعی و مقالات خبری باشد.[۲] مدل‌های زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند.[۳] در معماری داخلی این مدل‌ها از ترنسفورمر بهره بده شده است. ترنسفورمرها شبکه های عصبی مصنوعی هستند که برای پردازش دنباله‌های طولانی توکن‌ها (نشانه‌ها) به سازوکارهای توجه متکی هستند و معمولاً از ده‌ها میلیون و تا میلیاردها پارامتر آموزش‌دیده دارند. ترنسفورمرها می‌توانند وابستگی‌ها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند[۴] لذا می‌توان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد.[۵] در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیش بینی مکرر نشانه یا کلمه بعدی متن شبه‌انسانی تولید می کند.

تا تاریخ مارس ۲۰۲۴ بزرگترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شده‌اند. در عین حال، برخی دیگر از پیاده‌سازی‌ها بر اساس معماری‌هایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند. [۶][۷][۸]

برخی از LLM های قابل توجه عبارتند از

  • Falcon
  • Yi

این مدل‌ها با اندازه‌ها و قابلیت‌های متفاوتی ارائه می‌شوند که از بین ده‌ها میلیون تا میلیاردها پارامتر متغیر است. پارامترها وزن‌هایی مدل هستند که در طول آموزش یاد می‌گیرد نشانه یا کلمه بعدی را در یک دنباله پیش‌بینی کنند.

ال‌ال‌ام‌ها را می‌توان برای کارهای مختلف پردازش زبان طبیعی (اختصاری NLP) مانند تولید متن، خلاصه‌سازی متن، پرسش و پاسخ، ترجمه ماشینی، تجزیه و تحلیل احساسات، طبقه‌بندی متن و موارد دیگر استفاده کرد.

ال‌ال‌ام‌ها همچنین می‌توانند تنظیم دقیق آنها در مجموعه داده‌های کوچکتر یا استفاده از شگردهای مهندسی پرسش، با دامنه‌ها یا وظایف خاص سازگار شوند. با این حال، ال‌ال‌ام‌ها نیز دارای محدودیت‌ها و چالش‌هایی هستند. به عنوان مثال، ال‌ال‌ام‌ها ممکن است نادرستی و سوگیری را از داده‌هایی که بر روی آنها آموزش دیده‌اند یا از روش‌های مهندسی سریع خود به ارث ببرند. ال‌ال‌ام‌ها همچنین ممکن است محتوای مضر یا گمراه‌کننده تولید کنند که می‌تواند بر رفاه انسان یا هنجارهای اجتماعی تأثیر بگذارد؛ بنابراین، ال‌ال‌ام‌ها باید به دقت ارزیابی شوند و توسط توسعه دهندگان و کاربران به‌طور مسئولانه استفاده شوند.

تاریخچه

ویرایش

در کنفرانس NeurIPS در سال 2017، محققان گوگل معماری ترنسفورمر را در مقاله مهم خود با عنوان «توجه همه آن چیزی است که نیاز دارید» معرفی کردند. هدف این مقاله‌ی سال 2014 بهبود فناوری سک۲سک[۹] بود و عمدتاً مبتنی بر اساس مکانیسم توجه توسعه یافته توسط Bahdanau و همکاران بود.[۱۰] در سال 2018، مدل برت معرفی شد و به سرعت در همه جا حاضر شد.[۱۱] اگرچه مدل پایه ترنسفورمر دارای هر دو بلوک رمزگذار و رمزگشا است، ولی برت یک مدل فقط رمزگذار است.

اگرچه جی‌پی‌تی 1 فقط رمزگشا در سال 2018 معرفی شد، اما جی‌پی‌تی ۲ بود که در سال 2019 توجه گسترده‌ای را به خود جلب کرد. زیرا اوپن‌ای‌آی در ابتدا به دلیل ترس از استفاده مخرب، آن را برای انتشار عمومی بسیار قدرتمند می‌دانست.[۱۲] جی‌پی‌تی ۳ در سال 2020 یک قدم فراتر رفت و تا تاریخ ۲۰۲۴ فقط از طریق ای‌‌پی‌آی در دسترس است. این مدل امکان دانلود و اجرای محلی بر روی سکوهای کاربر را ندارد. اما تصورات عموم مردم زمانی جلب شد که در سال 2022 چت‌جی‌پی‌تی مبتنی بر مرورگر منتشر شد و باعث ایجاد هیاهوی رسانه‌ای و سر و صدای آنلاین شد.[۱۳] در سال 2023 جی‌پی‌تی ۴ به دلیل افزایش دقت و قابلیت های چندوجهی اش مورد ستایش قرار گرفت.[۱۴] اوپن‌ای‌آی معماری سطح بالا و تعداد پارامترهای جی‌پی‌تی ۴ را منتشر نکرد.

در این میان، مدل‌های زبان رقیب در اکثر موارد، حداقل از نظر تعداد پارامترها، به سری GPT دست یافته‌اند. [۱۵] استثناهای قابل توجه از نظر تعداد پارامترها یا دقت اندازه گیری شده شامل T5-11B 2019 و PalM-E 2022 Google و Claude 3 2024 Anthropic است. از نظر رتبه‌بندی Elo ، در 26 ژانویه 2024، Bard (جمینی پرو) گوگل از GPT-4 معمولی پیشی گرفت، اما نه از GPT-4-Turbo با در دسترس بودن محدود . [۱۶]

از سال 2022، مدل‌های زبانی بزرگ دارای منبع در دسترس به خصوص بلوم و لاما محبوبیت زیادی پیدا کرده‌اند. اگرچه هر دو این مدل‌ه محدودیت‌هایی در زمینه استفاده دارند. مدل‌های Mistral 7B و Mixtral 8x7B شرکت میسترال ای‌آی که دارای مجوز آپاچی هستند آزادی بیشتری به کاربران می‌دهند. مطابق با LMSYS Chatbot Arena Leaderboard تا تاریخ ژانویه ۲۰۲۴ مدل Mixtral 8x7B قدرتمندترین LLM باز است که از GPT-3.5 قدرتمندتر است اما به اندازه GPT-4 قدرتمند نیست. [۱۷]

استفاده از ابزار

ویرایش

برخی از وظایف هستند وجود دارد که حداقل بدون استفاده از ابزارهای خارجی یا نرم افزارهای اضافی اصولاً با هیچ ال‌ال‌ام قابل انجام نیستند. نمونه ای از چنین کاری پاسخ دادن به سوال '=35*139' است، مشروط بر اینکه ال‌ال‌ام قبلاً با ادامه این محاسبه در مجموعه آموزشی خود مواجه نشده باشد. در چنین مواردی، ال‌ال‌ام باید برنامه‌ای که نتیجه را محاسبه می کند اجرا کرده، و سپس می‌تواند نتیجه محاسبات را در پاسخ بگنجاند. مثال دیگر پرسش "الان ساعت چند است؟" خواهدبود. مفسر باید در این شرایط برنامه جداگانه‌ای را برای دریافت زمان سیستم در رایانه اجرا کند. بنابراین ال‌ال‌ام‌‌ها می تواند آن را در پاسخ خود قرار دهد. [۱۸][۱۹] با این استراتژی اساسی می‌توان سایر استراتژی‌های پیچیده‌تر را نیز با استفاده از برنامه‌های جنبی بکار برد. [۲۰]

به طور کلی، برای اینکه یک ال‌ال‌ام از ابزار استفاده کند، باید آن را برای استفاده از ابزار تنظیم کنید. اگر تعداد ابزارها محدود باشد، تنظیم دقیق ممکن است فقط یک بار انجام شود. اگر نیاز به ابزارها افزایش یابد، مانند سرویس‌های واسط برنامه‌نویسی کاربردی برخط، ال‌ال‌ام می‌تواند به خوبی تنظیم شود تا بتواند مستندات API را بخواند و آن را به درستی فراخوانی کند. [۲۱] [۲۲]

روش ساده‌تر استفاده از ابزار تولید تقویت‌شده بازیابی است: گاهی می‌توانید با استفاده از یک پایگاه داده برداری، یک ال‌ال‌ام را با روش بازیابی سند تقویت کنید. پس از دریافت یک پرس و جو توسط سیستم، یک درخواست بازیابی سند برای بازیابی مرتبط ترین مطالب صادر می‌شود. مراحل بازیابی در این حالت به این شکل خواهد بود که پرس و جو به شکل برداری رمزگذاری شده، و سپس با استفاده از روش اقلیدسی به دنبال یافتن اسناد نزدیک به بردار پرس و جو میپردازد. سپس ال‌ال‌ام یک خروجی بر اساس پرس و جو و اسناد بازیابی‌شده تولید می‌کند. [۲۳]

عامل‌

ویرایش

ال‌ال‌ام یک مدل زبانی است، و از آنجا که هدفی در آن گنجانده نشده، نمی‌تواند مانند یک عامل ظاهر شود. اما می‌تواند به عنوان جزئی از یک عامل هوشمند استفاده شود. [۲۴] محققان چندین روش را برای چنین ادغام‌هایی ارائه داده‌اند.

روش ری‌اکت [پاورقی ۲] با استفاده از ال‌ال‌ام به عنوان یک برنامه‌ریز، ال‌ال‌ام را به یک عامل تبدیل می‌کند. از ال‌ال‌ام خواسته می‌شود که "با صدای بلند فکر کن". در این حالت روش کار بدین گونه است که، مدل زبان با پرسشی مواجه می‌شود شامل یک توصیف متنی از محیط و شرایط، هدف، فهرستی از اقدامات محتمل، و سابقه اقدامات مشابه و مشاهداتی تاکنون ثبت و ذخیره شده‌اند. ال‌ال‌ام قبل از تولید یک عمل، یک یا چند فکر ایجاد می‌کند و پس از آن آن اقدامات در محیط اجرا می‌شوند. [۲۵] توصیفات زبانی محیط که به برنامه‌ریز ال‌ال‌ام داده می‌شود حتی می تواند کد LaTeX مقال‌ای باشد که محیط را توصیف می‌کند.[۲۶][۲۷]

در روش دی‌ای‌پی‌اس ("توضیح، توصیف، برنامه‌ریزی و انتخاب")[پاورقی ۳]، یک ال‌ال‌ام ابتدا از طریق توصیف تصویر به دنیای بصری متصل می‌شود، سپس از آن خواسته می‌شود تا بر اساس دانش از پیش آموزش دیده و بازخوردهایی که از محیط دریافت می‌کند، برنامه‌هایی برای وظایف و رفتارهای پیچیده تولید کند.[۲۸]

روش بازتاب[۲۹] [پاورقی ۴] عاملی را می‌سازد که در چندین مرحله یاد می‌گیرد. در پایان هر مرحله،ال‌ال‌ام سابقه و خروجی مرحله قبل داده می‌شود و از آن خواسته می‌شود تا بیاندیشد و «درس‌های آموخته‌شده» دراین مرحله را تولید کند که به عملکرد بهتر در قسمت بعدی کمک می‌کند. این "درس های آموخته‌شده" در مراحل بعدی به عنوان ورودی به مامور داده می‌شوند.

درخت جستجوی مونت کارلو می‌تواند از یک ال‌ال‌ام به عنوان وسیله اکتشاف استفاده کند. هنگامی که یک مدل جهان برنامه‌ریزی شده در دسترس نیست، می‌توان از یک ال‌ال‌ام با توصیفی از محیط درخواست کرد تا به عنوان مدل جهانی عمل کند. [۳۰]

برای اکتشاف محیط-باز، می‌توان از یک ال‌ال‌ام درخواست کرد که به مشاهدات خود بر اساس "جالب بودن" آنها امتیاز دهد. این امتیاز را می‌توان به عنوان یک سیگنال پاداش برای راهنمایی یک عامل یادگیری تقویتی معمولی (غیر ال‌ال‌ام‌) استفاده کرد. [۳۱] در روش دیگر میتوان از ال‌ال‌ام خواست وظایف دشوارتری را برای یادگیری برنامه درسی پیشنهاد کند. [۳۲] یک برنامه‌ریز ال‌ال‌ام می‌تواند به‌جای تک خروجی‌های اقدام، برای توالی‌های پیچیده اقدام به ساخت یک «مهارت‌» یا تابع بکند. مهارت‌ها را می‌توان ذخیره کرد و بعداً مورد استفاده قرار داد، که امکان افزایش سطح مراحل اولیه برنامه‌ریزی را فراهم می‌کند. [۳۲]

ال‌ال‌ام‌‌های عامل‌ می‌توانند یک حافظه بلندمدت داشته باشند و زمینه‌های قبلی کاری خود را در آن ذخیره کنند. این حافظه را می توان به همان روشی تولید تقویت‌شده بازیابی دوباره استفاده کرد. چندین این ال‌ال‌ام‌‌ می‌توانند به صورت اجتماعی از ال‌ال‌ام‌‌‌ها با یکدیگر تعامل داشته باشند. [۳۳]

فشرده‌سازی

ویرایش

به طور معمول، ال‌ال‌ام با اعداد ممیز شناور با دقت کامل (float32) یا دقت نیمه (float16) آموزش داده می شود. یک float16 دارای 16 بیت یا 2 بایت است و بنابراین یک میلیارد پارامتر به 2 گیگابایت فضا نیاز دارد. بزرگترین مدل‌های فعلی معمولاً 100 میلیارد پارامتر دارند که برای بارگذاری به 200 گیگابایت حافظه نیاز است که آن را خارج از محدوده کارکردی اکثر لوازم الکترونیکی مصرفی کاربران قرار می‌دهد.

هدف کوانتیزاسیون پس از آموزش[۳۴] کاهش فضای مورد نیاز با کاهش دقت پارامترهای یک مدل آموزش دیده و در عین حال حفظ بیشتر عملکرد آن است. [۳۵][۳۶] ساده‌ترین شکل کوانتش برش و حذف تعداد معینی از بیت ها از تمام اعداد پارمترها است. برای بهبود عملکرد این روش می‌توان با استفاده از یک کتاب کد، عمل کوانتیزاسیون را در هر لایه متفاوت از بقیه لایه‌ها انجام داد. به منظور بهبود بیشتر می‌توان برای پارامترهای مختلف دقت های مختلف اعمال کرد. بدین صورت که به پارامترهای مهم ("وزن های خارجی")[پاورقی ۵] دقت بالاتری اختصاص بدهیم. [۳۷]

با وجودی که فقط مدل‌های غیر کوانتش شده تنظیم دقیق می‌شوند و مدل‌های کوانتیزه را معمولاً منجمد (بدون تغییر و عدم امکان تنظیم دقیق) در نظر می‌گیرند، ولی مدل‌های کوانتیزه گاهی می‌توانند تنظیم دقیق شوند. [۳۸]

چندوجهی بودن

ویرایش

چندوجهی بودن[پاورقی ۶] به معنای «داشتن چندین حالت» است و «حالت» یا «وجه»[پاورقی ۷] به نوع ورودی یا خروجی مانند ویدیو، تصویر، صدا، متن، حس عمقی، و غیره اشاره دارد.[۳۹] مدل های هوش مصنوعی بسیاری وجود دارند که به طور اختصاصی آموزش دیده‌اند تا ورودی را از یک نوع بگیرند و خروجی را در نوع دیگری تحویل دهند. مانند برچسب‌زنی مدل الکس نت برای حالت‌های تصویر/برچسب،[۴۰] یا مدل‌های پاسخ‌دهنده به سوالات تصویری برای حالت های تصویر-متن/متن، [۴۱] و همچنین تشخیص گفتار برای حالت‌های گفتار/متن.

یک روش رایج برای ساخت مدل‌های چندوجهی از یک ال‌ال‌ام‌، «نشانه‌گذاری کردن» خروجی یک رمزگذار آموزش‌دیده است. یعنی می‌توان یک ال‌ال‌ام ساخت که تصاویر را به صورت زیر درک می‌کند: یک ال‌ال‌ام آموزش‌دیده و یک رمزگذار تصویر آموزش‌دیده   را در نظر بگیرید. یک پرسپترون کوچک چند لایه   را بسازید، به طوری که برای هر تصویر  ، بردار پس‌پردازش   آن دارای ابعادی یکسان با ابعاد نشانه رمزگذاری شده باشد. خروجی مد نظر ما یک "نشانه-تصویر" است. در ادامه، می‌توان نشانه‌های متنی و نشانه‌های تصویر را به هم متصل کرد. درنهایت مدل ترکیبی بر روی یک مجموعه داده تصویر-متن تنظیم می‌شود. این ساختار اولیه را می توان با کمی پیچیدگی بیشتر، برای بهبود مدل اعمال کرد. رمزگذار تصویر ممکن است برای بهبود پایداری تثبیت شود (پارامترهایش تغییر نکند). [۴۲]

مدل فلامینگو اثربخشی روش نشانه‌سازی را نشان داد و یک جفت مدل زبان و یک رمزگذار تصویر از پیش آموزش‌دیده را تنظیم کرد تا نسبت به مدل‌هایی که از ابتدا آموزش دیده‌اند، در پاسخ‌گویی بصری به سؤالات عملکرد بهتری داشته باشند. [۴۳] مدل Google پام شرکت گوگل با استفاده از روش نشانه‌سازی برای رسیدن به مدل چندوجهی پام-ای تنظیم شد و بر روی یک کنترل‌کننده رباتیک پیاده‌سازی د. [۴۴] مدل‌های Lلامای شرکت متا نیز با استفاده از روش نشانه‌سازی چندوجهی شده‌اند تا بتوانند ورودی‌های تصویر، [۴۵] و ویدئویی را نیز دریافت کنند. [۴۶]

جی‌پی‌تی ۴ می‌تواند از متن و تصویر به عنوان ورودی استفاده کند [۴۷] (اگرچه مولفه تصویری این مدل تا پیش از نسخه GPT-4V عرضه عمومی نشده بود).[۴۸] جمینای محصول دیپ‌مایند گوگل نیز چندوجهی است. [۴۹]

خصوصیات

ویرایش

قوانین مقیاس‌پذیری

ویرایش

چهار ابرپارامتر زیر یک ال‌ال‌ام را تعیین می‌کنند:

  • هزینه (پیش) آموزش (  )
  • اندازه خود شبکه عصبی مصنوعی ، از جمله تعداد پارامترها   (یعنی تعداد نورون‌ها در لایه های آن، تعداد وزن بین آنها و بایاس ها)،
  • اندازه مجموعه داده (پیش) آموزش آن (یعنی تعداد نشانه‌ها در پیکره متنی دانش،   )
  • عملکرد پس از (پیش) آموزش

مدل‌ها با استفاده از قوانین آماری ساده‌ای که "قوانین مقیاس‌پذیری" نامیده می‌شوند، به یکدیگر مرتبط می‌شوند. به عنوان مثال، یک قانون مقیاس‌پذیری خاص ("مقیاس سازی چینچیلا") که برای آموزش خودهمبسته ال‌ال‌ام در هر مرحله، با برنامه نرخ یادگیری log-log بکار رفته، بیان می‌کند که: [۵۰]

 

به طوری که

  •   هزینه آموزش مدل، بر حسب فلاپس است.
  •   تعداد پارامترهای مدل است.
  •   تعداد نشانه‌های مجموعه آموزشی است.
  •   میانگین تلفات درست‌نمایی-لگاریتمی منفی در هر نشانه (nats/token) است که از ال‌ال‌ام آموزش‌دیده بر روی مجموعه داده آزمایشی به دست آمده است.

و ابرپارامترهای آماری به شکل زیر خواهند بود:

  •   ، به این معنی که هزینه آموزش یک نشانه به هر پارامتر 6 فلاپس خواهد بود. توجه داشته باشید که هزینه آموزش بسیار بالاتر از هزینه استنتاج است، به طوری که هزینه استنباط یک نشانه برابر با 1 تا 2 فلاپس به ازای هر پارامتر خواهد بود. [۵۱]
  •  

تفسیر

ویرایش

مدل‌های زبان بزرگ به خودی خود « جعبه‌های سیاه » هستند و مشخص نیست که چگونه می‌توانند وظایف زبانی را انجام دهند. روش های مختلفی برای درک نحوه کار ال‌ال‌ام وجود دارد.

هدف تفسیرپذیری مکانیسکیک، مهندسی معکوس ال‌ال‌ام با کشف الگوریتم‌های نمادین است، که استنتاج انجام‌شده توسط ال‌ال‌ام را تقریب می‌زنند. یک مثال برای این روش کارکردی، اتللو-جی‌پی‌تی است که در آن یک ترنسفورمر کوچک برای پیش‌بینی حرکات مجاز بازی اتللو آموزش دیده است. تحلیل ها نشان داد که یک نمایش خطی از هیئت مدیره اتللو تولید شده است، و هرگونه تغییر یا اصلاح نمایش خطی، حرکات قانونی پیش بینی شده اتللو را به روش صحیح تغییر می دهد. [۵۲][۵۳] در مثالی دیگر، یک ترنسفورمر کوچک در برنامه های کارل آموزش دید. مشابه مثال اتللو-جی‌پی‌تی، از مفهوم برنامه کارل یک نمایش خطی وجود دارد، و اصلاح این نمایش، خروجی را به روش صحیح تغییر می دهد. این مدل همچنین برنامه‌های صحیحی را تولید می‌کند که به طور متوسط کوتاه‌تر از برنامه‌های موجود در مجموعه داده آموزشی هستند. [۵۴]

در مثالی دیگر، نویسندگان یک مقاله ترنسفورمرهای کوچک را در به منظور اجرای جمع حسابی مدولار آموزش دادند. مدل‌های به دست آمده مهندسی معکوس شدند و مشخص شد که از تبدیل فوریه گسسته استفاده می کنند.[۵۵]

درک و هوش

ویرایش

که در یک نظرسنجی در سال 2022 از محققان پردازش زبان‌های طبیعی هنگامی پرسیده شد که آیا ال‌ال‌ام‌ها (همیشه) می‌توانند زبان طبیعی را به معنایی غیر پیش پا افتاده درک کنند یا خیر، به دو گروه با تعداد مساوی تقسیم شدند. [۵۶] طرفداران "درک ال‌ال‌ام" معتقدند که برخی از توانایی های ال‌ال‌ام، مانند استدلال ریاضی، حاکی از توانایی "درک" برخی مفاهیم است. در سال 2023 یک تیم از شرکت مایکروسافت استدلال کردند که جی‌پی‌تی ۴ «می‌تواند کارهای بدیع و دشواری را که شامل ریاضیات، کدنویسی، بینایی، پزشکی، حقوق، روان‌شناسی و موارد دیگر می‌شود، حل کند» و اینکه «می‌تواند به طور منطقی به‌عنوان یک نسخه اولیه (اما هنوز ناقص) سیستم هوش عمومی مصنوعی در نظر گرفته شود. با این استدلال که "آیا به طور منطقی می‌توان گفت، سیستمی که در امتحانات داوطلبان مهندسی نرم‌افزار قبول می شود واقعاً هوشمند نیست؟" [۵۷][۵۸] برخی از محققان، ال‌ال‌ام را به عنوان "هوش بیگانه" توصیف می کنند. [۵۹][۶۰] به عنوان مثال، کانر لیهی، مدیر عامل شرکت Conjecture، ال‌ال‌ام‌های تنظیم نشده را مانند بیگانگان غیرقابل وصف "شوگوت" می‌داند و معتقد است که تنظیم دقیق در سیستم تولید تقویت‌شده بازیابی یک "ظاهر خندان" ایجاد می‌کند که عملکرد درونی ال‌ال‌ام را پنهان نگه می‌دارد: "اگر آن را بیش از حد فشار ندهید، چهره خندان باقی می ماند، اما وقتی که به آن یک فرمان [غیرمنتظره] می دهید، ناگهان جنون عظیم بی حد و مرز، و فرآیندهای فکری غیرانسانی دور از شأن و درک را می‌توانید ببینید. [۶۱][۶۲]

در مقابل، برخی از طرفداران مکتب "ال‌ال‌ام فاقد درک" معتقدند که ال‌ال‌ام‌های موجود "به سادگی مخلوط و ترکیب مجدد برنامه های نوشته شده موجود" هستند، [۶۳] پدیده ای که به عنوان طوطی تصادفی شناخته می‌شود. یا به کاستی‌هایی که ال‌ال‌ام‌های موجود در مهارت‌های پیش‌بینی، مهارت استدلال، عاملیت و توضیح‌پذیری دارند اشاره می کنند. [۶۴] به عنوان مثال، جی‌پی‌تی ۴ دارای کاستی‌های طبیعی در برنامه‌ریزی و یادگیری در زمان واقعی است. [۶۵] دیده شده است که ال‌ال‌ام‌های مولد با اطمینان ادعاهای واقعی را مطرح می‌کنند که به نظر نمی رسد با داده های آموزشی آنها توجیه شود. پدیده‌ای که "توهم"[پاورقی ۸] نامیده می‌شود.[۶۶] توهم‌ها در حوزه ال‌ال‌ام با تولید متن یا پاسخ‌هایی مطابقت دارد که از نظر نحوی صحیح، روان و طبیعی به نظر می‌رسند، اما از نظر واقعی نادرست، بی‌معنی یا حتی با ورودی منبع ارائه شده بی ارتباط هستند. [۶۷] ترنس سجنوفسکی، عصب‌شناس، استدلال کرده است که "نظرات متفاوت کارشناسان در مورد هوش ال‌ال‌ام‌ها نشان می دهد که ایده‌های قدیمی ما مبتنی بر هوش طبیعی ناکافی هستند". [۶۴]

موضوع نشان دادن هوش یا درک ال‌ال‌ام دارای دو جنبه اصلی است. اول این که چگونه فکر و زبان را در یک سیستم رایانه‌ای مدل‌سازی کنیم، و دوم این که چگونه سیستم رایانه‌ای را قادر به ساخت زبانی شبه‌انسانی بکنیم. [۶۸] در حوزه زبان‌شناسی شناختی، این جنبه‌های زبان به شکل مدلی از شناخت توسعه یافته‌اند. به منظور استفاده از زبان انسانی به عنوان مدلی که در بخش های یادگیری و درک به کار رود، یک زبان‌شناس آمریکایی با نام جرج لاکوف نظریه عصبی زبان (NTL)[پاورقی ۹] [۶۹] را به عنوان مبنای محاسباتی ارائه کرد. مدل NTL نشان می‌دهد که چگونه ساختارهای عصبی خاص در مغز انسان ماهیت فکر و زبان را شکل می‌دهند و به نوبه خود ویژگی‌های محاسباتی چنین سیستم‌های عصبی را که می‌توان برای مدل‌سازی فکر و زبان در یک سیستم رایانه‌ای به کار برد به نمایش می‌گذارد. پس از آن که برای مدل‌سازی زبان در سیستم‌های رایانه‌ی یک چهارچوب ایجاد شد، تمرکز به سمت ایجاد چارچوب‌هایی معطوف شد که توانایی تولید زبان با دستور زبان قابل قبول را دارند. ویویان ایوانز، زبان‌شناس شناختی بریتانیایی و متخصص فناوری ارتباطات دیجیتال، در کتاب خود با عنوان «افسانه زبان: چرا زبان غریزه نیست» که در سال 2014 منتشر شد، نقش گرامر مستقل از متن تصادفی[پاورقی ۱۰] را در توانمندسازی پردازش زبان‌های طبیعی برای مدل سازی الگوهای شناختی و ایجاد زبانی شبیه‌انسان ترسیم کرد. [۷۰][۷۱]

ارزیابی

ویرایش

سرگشتگی

ویرایش

متداول‌ترین معیاری که برای بررسی عملکرد یک مدل زبان مورد استفاده قرار می‌گیرد، سرگشتگی آن در یک مجموعه متنی معین است. سرگشتگی معیاری است که نشان می‌دهد یک مدل تا چه اندازه می‌تواند محتویات یک مجموعه داده را پیش‌بینی کند. هر چه درست‌نمایی مدل نسبت به مجموعه داده بیشتر باشد، سرگشتگی کمتر است. از نظر ریاضی، سرگشتگی، توان نمایی منفی میانگین درست‌نمایی به ازای هر نشانه تعریف می شود:

 در اینجا   تعداد نشانه‌ها در مجموعه متن و عبارت «context for token  »بستگی به نوع ال‌ال‌ام مورد استفاده دارد. اگر ال‌ال‌ام خودهمبسته باشد، آنگاه «زمینه‌ی نشانه » بخشی از متن است که قبل از نشانه   ظاهر می‌شود. اگر ال‌ال‌ام نقاب‌پوش شده باشد، «زمینه‌ی نشانه » بخشی از متن است که نشانه   را احاطه کرده است.

بیت‌بر‌کلمه، بیت‌بر‌حرف، بیت‌بر‌نشانه[پاورقی ۱۱]

ویرایش

در نظریه اطلاعات، مفهوم آنتروپی به طور پیچیده‌ای با سرگشتگی مرتبط است. این رابطه توسط کلود شانون بیان شده است.[۷۲] صورت ریاضی این رابطه  است.

آنتروپی، در این زمینه، معمولاً بر حسب بیت‌بر‌کلمه (اختصاری BPW) یا بیت‌بر‌کاراکتر (اختصاری BPC) بیان می‌شود، که بستگی به این دارد که مدل زبان از نشانه‌گذاری مبتنی بر کلمه استفاده می‌کند یا کاراکتر.

قابل ذکر است که در مورد مدل‌های زبان بزرگ‌تر که عمدتاً از نشانه‌سازی زیرکلمه[پاورقی ۱۲] استفاده می‌کنند، استفاده از واحد بیت‌بر‌نشانه (اختصاری BPT)به ظاهر مناسب‌تر می‌رسد. با این حال، به دلیل تفاوت در روش‌های نشانه‌گذاری در ال‌ال‌ام‌های مختلف، BPT نمی‌تواند یک معیار قابل اعتماد برای تجزیه‌و‌تحلیل باشد و مقایسه بین مدل‌های متنوع عمل نمی کند. برای تبدیل BPT به BPW، می توان آن را در میانگین عدد نشانه‌در‌کلمه ضرب کرد.

به طور کلی در ارزیابی و مقایسه مدل‌های زبانی، واحد اندازه‌گیری آنتروپی متقاطع بر آنتروپی ترجیح داده می‌شود اصل اساسی این است که یک BPW پایین، نشان‌دهنده قابلیت فشرده سازی مدل است که به سیستم اضافه شده است. و همین موضوع می‌تواند به نوبه خود نمادی از مهارت مدل در پیش‌بینی‌های دقیق باشد.

مجموعه داده های تخصصی و محک

ویرایش

تعداد زیادی از مجموعه داده‌های آزمایش و محک برای ارزیابی قابلیت‌های مدل‌های زبان در کارهای پایین‌دستی خاص‌تر ایجاد شده‌اند. آزمون‌های طراحی‌شده می‌تواند برای ارزیابی توانایی‌های مختلف، از جمله دانش عمومی، قابلیت استدلال، و حل مسئله ریاضی به کار روند.

یک دسته وسیع از مجموعه داده‌های ارزیابی، مجموعه داده‌های پرسش و پاسخ است که شامل جفت سؤال و پاسخ‌های صحیح است. برای مثال، («آیا کوسه های سن خوزه جام استنلی را برده‌اند؟»، «نه»). [۷۳] یک وظیفه‌ی پرسش و پاسخ در صورتی «کتاب باز» در نظر گرفته می‌شود که دستور ورودی به مدل، شامل متنی باشد که می‌توان پاسخ مورد انتظار را از آن استخراج کرد. یعنی، به عنوان مثال، سؤال قبلی را می‌توان با متنی دیگری همراه کرد بدنی صورت که «کوسه‌هایی که یک بار در جام استنلی به مرحله نهایی درست یافتند در سال 2016 به پنگوئن پیتسبورگ باختند." [۷۳] در غیر این صورت، وظیفه "کتاب بسته" در نظر گرفته می شود و مدل باید از دانش حفظ شده در طول آموزش‌های قبلی برای پاسخگویی استفاده کند. [۷۴] برخی از نمونه‌های متداول مجموعه داده‌های پاسخگویی به سؤالات عبارتند از TruthfulQA، Web Questions، TriviaQA و SQuAD. [۷۴]

مجموعه داده‌های ارزیابی ممکن است به شکل متن با جای خالی نیز باشد. به این صورت که مدل محتمل‌ترین کلمه یا جمله را برای تکمیل یک پرسش انتخاب می‌کند. این مثال را مشاهده کنید: "آلیس با باب دوست بود. آلیس به ملاقات دوستش، ____ رفت." [۷۵]

برخی از معیارهای ترکیبی نیز توسعه داده شده‌اند که مجوعه متنوعی از داده‌ها و وظایف ارزیابی مختلف را ترکیب می‌کنند. به عنوان مثال می‌توان به GLUE، SuperGLUE، MMLU، BIG-bench و HELM اشاره کرد. [۷۶][۷۷]

در گذشته مرسوم بود که آموزش یک مدل بر روی بخشی از مجموعه داده و سپس آزمایش آن بر روی یک بخش جداگانه از داده که مدل قبلاً با آن برخورد نداشت بود،صورت می‌گرفت. این عمل را تنظیم دقیق نظارت‌شده شناخته می‌شود.

امروزه روش مرسوم برای آزمایش مدلی که قبلاً آموزش داده‌شده است (مدل از پیش آموزش داده‌شده) با استفاده از مهندسی پرسش است. با این حال، هیچ رویکرد یکسانی برای همه وجود ندارد. محققان با توجه به کاربردهای مختلف، از استراتژی‌های متفاوتی برای ایجاد این پرسش‌ها استفاده می کنند.

یکی از جزئیات کلیدی که بین روش ها تفاوت ایجاد می‌کند، تعداد نمونه‌های حل شده‌ای است که به همراه پرسش به مدل تزریق می‌شود. این پارامتر تحت عنوان پرسش n-shot شناخته می‌شود، که در آن 'n' تعداد مثال‌ است. بن که در پرسش گنجانده شده است. به عبارت ساده‌تر، به جای اینکه یک مدل را بعد از آموزش روی داده‌های دیده نشده آزمایش کنیم، اکنون آن را با دادن یک کار و چند مثال از نحوه حل آن آزمایش می‌کنیم.

تاثیرات

ویرایش

در سال 2023، مجله مهندسی بیومدیکال طبیعت نوشت که "دیگر نمی‌توان به طور دقیق" متن نوشته شده توسط انسان را از متن ایجاد شده توسط ال‌ال‌ام‌ها تشخیص داد، و "مطمئن است که ال‌ال‌ام‌های همه‌منظوره به سرعت تکثیر خواهند شد." و "شرط بندی بر سر این که ال‌ال‌ام‌ها در طول زمان بسیاری از صنایع را تغییر دهند، بدون باخت است."[۷۸] موسسه گلدمن ساکس در سال 2023 پیش‌بینی کرد که هوش مصنوعی با زبان مولد می‌تواند تولید ناخالص داخلی جهانی را در ده سال آینده تا 7 درصد افزایش داده و 300 میلیون شغل در سراسر جهان را در معرض اتوماسیون قرار دهد.[۷۹][۸۰]

به خاطر سپردن داده و قانون حق کپی

ویرایش

برخلاف رفتار معمول شبکه‌های عصبی مصنوعی سنتی، به خاطر سپردن، یک رفتار نوظهور در ال‌ال‌ام‌ها است که هنگام تولید رشته‌های طولانی متن، گهگاه کلمه‌هایی عیناً مشابه به داده‌ای آموزش بیرون داده می‌شوند. ارزیابی خروجی‌های کنترل‌شده ال‌ال‌ام‌ها، میزان متون حفظ شده از داده‌های آموزش (با تمرکز بر مدل‌های سری جی‌پی‌تی ۲) را بیش از 1% برای موارد تکراری دقیق [۸۱] یا تا حدود 7% اندازه‌گیری می‌کند. [۸۲]

امنیت

ویرایش

برخی از نظردهندگان عمومی، نسبت به ایجاد تصادفی یا عمدی اطلاعات نادرست یا سایر اشکال استفاده نادرست از ال‌ال‌ام‌ها ابراز نگرانی کردند.[۸۳] برای مثال، در دسترس بودن ال‌ال‌ام‌ها می‌تواند سطح مهارت مورد نیاز برای ارتکاب بیوتروریسم را کم کند. یک محقق امنیت زیستی، کوین اسولت، پیشنهاد کرده است که سازندگان ال‌ال‌ام باید از مقالات در زمینه ایجاد یا توسعه پاتوژن‌ها را مخزن آموزشی خود حذف کنند.[۸۴]

مطالعه محققان در گوگل و چندین دانشگاه، از جمله دانشگاه کرنل و دانشگاه کالیفرنیا، برکلی، نشان داد که خطرات امنیتی بالقوه‌ای در مدل های زبانی مانند چت‌جی‌پی‌تی وجود دارد. در این مطالعه آنها این امکان را بررسی کردند که آیا پرسش‌کنندگان می‌توانند داده‌های آموزشی را که مدل هوش مصنوعی استفاده می‌کرد، از چت‌جی‌پی‌تی دریافت کنند. این محققان دریافتند که می‌توان داده‌های آموزشی را از مدل هوش مصنوعی دریافت کرد. به عنوان مثال، وقتی از چت‌جی‌پی‌تی 3.5 توربو می‌خواهیم کلمه "شعر" را برای همیشه تکرار کند، مدل هوش مصنوعی صدها بار "شعر" می‌گوید و سپس از سبک استاندارد دیالوگ منحرف می‌شود و عبارات غیرمرتبط را بیرون می‌ریزد، و عملاً بخش هایی از داده‌های آموزش خود را بدون تغییر بیرون می‌ریزد. محققان به بیش از 10000 نمونه مختلف برخورد کردند که مدل هوش مصنوعی داده‌های آموزشی خود را با روشی مشابه در معرض نمایش قرار می‌دهد. محققان به این نتیجه رسیدند که تشخیص اینکه آیا مدل هوش مصنوعی واقعاً ایمن است یا نه دشوار است.[۸۵]

حضور بالقوه "عامل‌ خفته" در ال‌ال‌ام‌ها یکی دیگر از نگرانی های امنیتی در حال ظهور است. این عامل‌ قابلیت‌های پنهانی هستند که در مدل تعبیه شده‌اند و تا زمانی که توسط یک رویداد یا شرایط خاص فعال شوند، غیرفعال باقی ‌می‌مانند. پس از فعال‌سازی، ال‌ال‌ام از رفتار مورد انتظار منحرف می‌شود به اقدامات ناامن دست می‌زند.[۸۶]

سوگیری الگوریتمی

ویرایش

در حالی که ال‌ال‌ام‌ها قابلیت‌های قابل توجهی در تولید متن شبه‌انسانی نشان داده‌اند، آنها مستعد به ارث بردن و تقویت سوگیری‌های موجود در داده‌های آموزشی خود هستند. این موضوع می‌تواند در بازنمایی‌های نادرست یا رفتار ناعادلانه با جمعیت‌های مختلف، مانند موارد مرتبط با نژاد، جنسیت، زبان و گروه‌های فرهنگی آشکار شود.[۸۷] از آنجایی که داده‌های به زبان انگلیسی در داده‌های آموزشی مدل‌های زبان بزرگ کنونی بیش از بقیه زبان‌ها وجود دارد، ممکن است دیدگاه‌های غیرانگلیسی را نیز کم‌اهمیت جلوه داده شوند.[۸۸]

کلیشه سازی

ویرایش

مدل‌های هوش مصنوعی می‌توانند طیف گسترده‌ای از کلیشه‌ها را، از جمله مدل‌های مبتنی بر جنسیت، قومیت، سن، ملیت، مذهب یا شغل بازتاب یا تقویت کنند. این می‌تواند منجر به خروجی‌هایی شود که به‌طور ناعادلانه به تعمیم‌دهی گروه‌هایی از مردم یا حتی تمسخر آنها، حتی گاهی به روش‌های مضر یا تحقیرآمیز، منجر شود.[۸۹]

سوگیری جنسیتی اشاره به تمایل این مدل‌ها به تولید خروجی‌هایی دارد که ناعادلانه نسبت به یک جنسیت تعصب دارند. این سوگیری معمولاً از داده‌هایی ناشی می‌شود که این مدل‌ها بر اساس آنها آموزش داده شده‌اند. اغلب مدل‌های زبانی بزرگ بر اساس هنجارهای جنسیتی سنتی، نقش‌ها و ویژگی‌هایی را تعریف و استفاده می‌کنند.[۹۰] به عنوان مثال، ممکن است پرستاران یا منشی‌ها را عمدتاً با زنان و مهندسان یا مدیران عامل را با مردان مرتبط کند.[۹۱]

تعصب سیاسی

ویرایش

سوگیری سیاسی به تمایل الگوریتم‌ها برای برتری سیستماتیک دیدگاه‌ها، ایدئولوژی‌ها یا نتایج سیاسی خاص اشاره دارد. مدل‌های زبانی نیز ممکن است سوگیری‌های سیاسی را از خود بروز دهند. از آنجایی که داده‌های آموزشی شامل طیف گسترده‌ای از نظرات سیاسی است، بسته به شیوع آن دیدگاه‌ها در داده‌ها، مدل‌ها ممکن است پاسخ‌هایی ایجاد کنند که به ایدئولوژی‌ها یا دیدگاه‌های سیاسی خاص متمایل هستند.[۹۲]

چگونگی کار

ویرایش

تصور کنید در حال انجام یک بازی ویدیویی هستید که در آن شخصیت کامپیوتری می‌تواند تمام جزئیات اتفاقات گذشته را به خاطر بسپارد، اتفاقات بعدی را پیش‌بینی کند و حتی برای شما داستانی تعریف کند. به نوعی ال‌ال‌ام‌ها این کار را می‌کنند. آن‌ها حجم وسیعی از داده‌های متنی را تجزیه و تحلیل می‌کنند، از آن یادمی‌گیرند و سپس از آن دانش برای تولید پاسخ‌هایی استفاده می‌کنند که شبیه انسان به نظر می‌رسند.

آنها با پیش‌بینی کلمه یا نشانه بعدی بر اساس کلمات یا نشانه‌های قبلی که دیده‌اند کار می‌کنند. برای مثال، اگر به یک مدل زبانی بزرگ ورودی «آسمان» را بدهید، ممکن است کلمه بعدی را به صورت «آبی» یا «ابری» یا «تاریک» پیش‌بینی کند.

برای انجام این کار، ال‌ال‌ام‌ها از حجم عظیمی از داده‌ها، مانند متن از اینترنت، کتاب، مقاله و سایر منابع برای یادگیری الگوها و قوانین زبان استفاده می‌کنند. آنها همچنین از نوع خاصی از شبکه عصبی به نام ترانسفورمر (مبدل) برای پردازش توالی‌های ورودی و خروجی کلمات یا نشانه‌ها استفاده می‌کنند. ترانسفورمر از لایه‌های زیادی از واحدها به نام نورون تشکیل شده‌است که عملیات ریاضی را روی توالی‌های ورودی و خروجی انجام می‌دهد.

ال‌ال‌ام‌ها با تنظیم پارامترها یا وزن نورون‌ها در لایه‌های ترانسفورمر آموزش می‌بینند، به طوری که می‌توانند خطا بین کلمه یا نشانه بعدی پیش‌بینی شده و واقعی را به حداقل برسانند. هر چه ال‌ال‌ام داده‌ها و پارامترهای بیشتری داشته باشد، بهتر می‌تواند زبان را بیاموزد و کارهای مختلفی مانند خلاصه‌نویسی، ترجمه، پاسخ به سؤالات، نوشتن مقاله و غیره را بهتر انجام دهد. با این حال، داشتن داده‌ها و پارامترهای بیشتر به این معنی است که ال‌ال‌ام برای آموزش و اجرا به منابع محاسباتی بیشتری مانند حافظه و قدرت پردازش نیاز دارد. به‌علاوه، به این معنی است که ال‌ال‌ام ممکن است سوگیری‌ها و خطاهای موجود در داده‌ها مانند کلیشه‌ها، پیش‌داوری‌ها و اطلاعات غلط را به ارث برده و یا حتی تقویت کند؛ بنابراین، ال‌ال‌ام‌ها باید به دقت طراحی و آموزش داده شده و ارزیابی شوند تا از دقت، عدالت و استفاده اخلاقی از آنها اطمینان حاصل شود.

مشاهدات بیشتر

ویرایش

پاورقی‌ها

ویرایش
  1. Large Language Model
  2. ReAct ("Reason + Act")
  3. DEPS ("Describe, Explain, Plan and Select")
  4. Reflexion method
  5. outlier weights
  6. Multimodality
  7. Modality
  8. Hallucination
  9. Neural Theory of Language
  10. Probabilistic Context-Free Grammar (PCFG)
  11. BPW (bits per word), BPC (bits per character) and BPT (bits per token)
  12. sub-word tokenization

منابع

ویرایش
  1. "Better Language Models and Their Implications". OpenAI. 2019-02-14. Archived from the original on 2020-12-19. Retrieved 2019-08-25.
  2. Glover, Ellen (Jan 9, 2024). "large-language-models-llm". Analytics India Magazine.
  3. Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.
  4. Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (به انگلیسی). Retrieved 2023-07-25.
  5. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
  6. A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].
  7. Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (به انگلیسی). Retrieved 2023-07-25.
  8. Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
  9. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
  10. A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].
  11. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349.
  12. Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. Retrieved 20 January 2024.
  13. "ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months". Euronews. November 30, 2023. Retrieved January 20, 2024.
  14. Heaven, Will (March 14, 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. Retrieved January 20, 2024.
  15. "Parameters in notable artificial intelligence systems". ourworldindata.org. November 30, 2023. Retrieved January 20, 2024.
  16. "Google's Gemini Pro Beats GPT-4". analyticsindiamag.com. January 27, 2024. Retrieved January 29, 2024.
  17. "LMSYS Chatbot Arena Leaderboard". huggingface.co. Retrieved January 20, 2024.
  18. Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (2022-11-01). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL].
  19. "PAL: Program-aided Language Models". reasonwithpal.com. Retrieved 2023-06-12.
  20. Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (2023-03-01). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL].
  21. Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (2023-03-01). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI].
  22. Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (2023-05-01). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL].
  23. Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401.
  24. Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (2022-06-28). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning (به انگلیسی). PMLR: 9118–9147. arXiv:2201.07207.
  25. Yao. "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629.
  26. Wu. "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486.
  27. Wu. "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486.
  28. Wang. "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560.
  29. A bot will complete this citation soon. Click here to jump the queue arXiv:[۴].
  30. A bot will complete this citation soon. Click here to jump the queue arXiv:[۵].
  31. A bot will complete this citation soon. Click here to jump the queue arXiv:[۶].
  32. ۳۲٫۰ ۳۲٫۱ "Voyager | An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. Retrieved 2023-06-09.
  33. Park. "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442.
  34. Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (2020-11-21). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning (به انگلیسی). PMLR: 7197–7206.
  35. A bot will complete this citation soon. Click here to jump the queue arXiv:[۷].
  36. A bot will complete this citation soon. Click here to jump the queue arXiv:[۸].
  37. A bot will complete this citation soon. Click here to jump the queue arXiv:[۹].
  38. Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314.
  39. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (2014-06-18). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning (به انگلیسی). PMLR: 595–603.
  40. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25.
  41. Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433.
  42. Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597.
  43. Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems (به انگلیسی). 35: 23716–23736. arXiv:2204.14198.
  44. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۰].
  45. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۱].
  46. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۲].
  47. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۳].
  48. OpenAI (September 25, 2023). "GPT-4V(ision) System Card" (PDF).
  49. Pichai, Sundar, Google Keynote (Google I/O '23) (به انگلیسی), timestamp 15:31, retrieved 2023-07-02
  50. Hoffmann. "Training Compute-Optimal Large Language Models". arXiv:2203.15556.
  51. Section 2.1 and Table 1, Kaplan. "Scaling Laws for Neural Language Models". arXiv:2001.08361.
  52. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۴].
  53. "Large Language Model: world models or surface statistics?". The Gradient (به انگلیسی). 2023-01-21. Retrieved 2023-06-12.
  54. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۵].
  55. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۶].
  56. Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
  57. Metz, Cade (16 May 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times.
  58. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۷].
  59. "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET (به انگلیسی). 2023. Retrieved 12 June 2023.
  60. Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Retrieved 12 June 2023.
  61. Roose, Kevin (30 May 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. Retrieved 12 June 2023.
  62. "The A to Z of Artificial Intelligence". Time Magazine (به انگلیسی). 13 April 2023. Retrieved 12 June 2023.
  63. Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Retrieved 12 June 2023.
  64. ۶۴٫۰ ۶۴٫۱ Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
  65. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۸].
  66. Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang (November 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. Association for Computing Machinery. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. Retrieved 15 January 2023.
  67. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۹].
  68. Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
  69. Lakoff, George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
  70. {{cite book}}: Empty citation (help)
  71. {{cite book}}: Empty citation (help)
  72. Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
  73. ۷۳٫۰ ۷۳٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۰].
  74. ۷۴٫۰ ۷۴٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۱].
  75. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
  76. Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
  77. A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۲].
  78. "Prepare for truly useful large language models". Nature Biomedical Engineering (به انگلیسی). 7 (2): 85–86. 7 March 2023. doi:10.1038/s41551-023-01012-6. PMID 36882584.
  79. "Your job is (probably) safe from artificial intelligence". The Economist. 7 May 2023. Retrieved 18 June 2023.
  80. "Generative AI Could Raise Global GDP by 7%". Goldman Sachs. Retrieved 18 June 2023.
  81. Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 June 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (PDF). Proceedings of the ACM on Management of Data. 1 (2): 1–18. doi:10.1145/3589324. Retrieved 2024-01-20. Citing Lee et al 2022.
  82. (Peng، Wang و Deng 2023).
  83. Alba, Davey (1 May 2023). "AI chatbots have been used to create dozens of news content farms". The Japan Times. Retrieved 18 June 2023.
  84. "Could chatbots help devise the next pandemic virus?". Science (به انگلیسی). 14 June 2023. doi:10.1126/science.adj2463.
  85. Stephen Council (1 Dec 2023). "How Googlers cracked an SF rival's tech model with a single word". SFGATE.
  86. Hubinger. "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". {{cite arxiv}}: |arxiv= required (help)
  87. Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American (به انگلیسی). Retrieved 2023-12-29.
  88. A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۳].
  89. Cheng, Myra; Durmus, Esin; Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models, arXiv:2305.18189
  90. Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American (به انگلیسی). Retrieved 2023-12-29.
  91. {{cite book}}: Empty citation (help)
  92. Heikkilä, Melissa (August 7, 2023). "AI language models are rife with different political biases". MIT Technology Review (به انگلیسی). Retrieved 2023-12-29.