مدل زبانی بزرگ
مدل زبانی بزرگ [پاورقی ۱] (اختصاری LLM) یا الالام، سامانههای هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شدهاند. آنها «بزرگ» نامی میشوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان میدهد الگوهای پیچیده در دادههای زبان را پردازش کنند.
الالامها دستهای از مدلهای یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدلها این توانایی ها را با یادگیری روابط آماری از اسناد متنی در طی یک فرآیند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست می آورند.[۱] آنها بر روی مجموعه دادههای گستردهای آموزش دیدهاند که اغلب از اینترنت جمعآوری میشوند، و میتواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکیپدیا، کتابها، موضوعات رسانههای اجتماعی و مقالات خبری باشد.[۲] مدلهای زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند.[۳] در معماری داخلی این مدلها از ترنسفورمر بهره بده شده است. ترنسفورمرها شبکه های عصبی مصنوعی هستند که برای پردازش دنبالههای طولانی توکنها (نشانهها) به سازوکارهای توجه متکی هستند و معمولاً از دهها میلیون و تا میلیاردها پارامتر آموزشدیده دارند. ترنسفورمرها میتوانند وابستگیها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند[۴] لذا میتوان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد.[۵] در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیش بینی مکرر نشانه یا کلمه بعدی متن شبهانسانی تولید می کند.
تا تاریخ مارس ۲۰۲۴[بروزرسانی] بزرگترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شدهاند. در عین حال، برخی دیگر از پیادهسازیها بر اساس معماریهایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند. [۶][۷][۸]
برخی از LLM های قابل توجه عبارتند از
- سری مدل های GPT اوپنایآی (به عنوان مثال، جیپیتی ۳ و جیپیتی ۴ ، مورد استفاده در ChatGPT و Microsoft Copilot )
- پام Gemini (که بعداً در ربات چت با همان نام استفاده شد) از شرکت گوگل
- گروک شرکت ایکسایآی،
- مدلهای منبع باز خانواده LLaMA از شرکت متا
- مدلهای کلود شرکت آنتروپیک
- مدلهای منبع باز Mistral AI
- مدل منبع باز DBRX از شرکت دیتابریکس
- Falcon
- Yi
این مدلها با اندازهها و قابلیتهای متفاوتی ارائه میشوند که از بین دهها میلیون تا میلیاردها پارامتر متغیر است. پارامترها وزنهایی مدل هستند که در طول آموزش یاد میگیرد نشانه یا کلمه بعدی را در یک دنباله پیشبینی کنند.
الالامها را میتوان برای کارهای مختلف پردازش زبان طبیعی (اختصاری NLP) مانند تولید متن، خلاصهسازی متن، پرسش و پاسخ، ترجمه ماشینی، تجزیه و تحلیل احساسات، طبقهبندی متن و موارد دیگر استفاده کرد.
الالامها همچنین میتوانند تنظیم دقیق آنها در مجموعه دادههای کوچکتر یا استفاده از شگردهای مهندسی پرسش، با دامنهها یا وظایف خاص سازگار شوند. با این حال، الالامها نیز دارای محدودیتها و چالشهایی هستند. به عنوان مثال، الالامها ممکن است نادرستی و سوگیری را از دادههایی که بر روی آنها آموزش دیدهاند یا از روشهای مهندسی سریع خود به ارث ببرند. الالامها همچنین ممکن است محتوای مضر یا گمراهکننده تولید کنند که میتواند بر رفاه انسان یا هنجارهای اجتماعی تأثیر بگذارد؛ بنابراین، الالامها باید به دقت ارزیابی شوند و توسط توسعه دهندگان و کاربران بهطور مسئولانه استفاده شوند.
تاریخچه
ویرایشدر کنفرانس NeurIPS در سال 2017، محققان گوگل معماری ترنسفورمر را در مقاله مهم خود با عنوان «توجه همه آن چیزی است که نیاز دارید» معرفی کردند. هدف این مقالهی سال 2014 بهبود فناوری سک۲سک[۹] بود و عمدتاً مبتنی بر اساس مکانیسم توجه توسعه یافته توسط Bahdanau و همکاران بود.[۱۰] در سال 2018، مدل برت معرفی شد و به سرعت در همه جا حاضر شد.[۱۱] اگرچه مدل پایه ترنسفورمر دارای هر دو بلوک رمزگذار و رمزگشا است، ولی برت یک مدل فقط رمزگذار است.
اگرچه جیپیتی 1 فقط رمزگشا در سال 2018 معرفی شد، اما جیپیتی ۲ بود که در سال 2019 توجه گستردهای را به خود جلب کرد. زیرا اوپنایآی در ابتدا به دلیل ترس از استفاده مخرب، آن را برای انتشار عمومی بسیار قدرتمند میدانست.[۱۲] جیپیتی ۳ در سال 2020 یک قدم فراتر رفت و تا تاریخ ۲۰۲۴[بروزرسانی] فقط از طریق ایپیآی در دسترس است. این مدل امکان دانلود و اجرای محلی بر روی سکوهای کاربر را ندارد. اما تصورات عموم مردم زمانی جلب شد که در سال 2022 چتجیپیتی مبتنی بر مرورگر منتشر شد و باعث ایجاد هیاهوی رسانهای و سر و صدای آنلاین شد.[۱۳] در سال 2023 جیپیتی ۴ به دلیل افزایش دقت و قابلیت های چندوجهی اش مورد ستایش قرار گرفت.[۱۴] اوپنایآی معماری سطح بالا و تعداد پارامترهای جیپیتی ۴ را منتشر نکرد.
در این میان، مدلهای زبان رقیب در اکثر موارد، حداقل از نظر تعداد پارامترها، به سری GPT دست یافتهاند. [۱۵] استثناهای قابل توجه از نظر تعداد پارامترها یا دقت اندازه گیری شده شامل T5-11B 2019 و PalM-E 2022 Google و Claude 3 2024 Anthropic است. از نظر رتبهبندی Elo ، در 26 ژانویه 2024، Bard (جمینی پرو) گوگل از GPT-4 معمولی پیشی گرفت، اما نه از GPT-4-Turbo با در دسترس بودن محدود . [۱۶]
از سال 2022، مدلهای زبانی بزرگ دارای منبع در دسترس به خصوص بلوم و لاما محبوبیت زیادی پیدا کردهاند. اگرچه هر دو این مدله محدودیتهایی در زمینه استفاده دارند. مدلهای Mistral 7B و Mixtral 8x7B شرکت میسترال ایآی که دارای مجوز آپاچی هستند آزادی بیشتری به کاربران میدهند. مطابق با LMSYS Chatbot Arena Leaderboard تا تاریخ ژانویه ۲۰۲۴[بروزرسانی] مدل Mixtral 8x7B قدرتمندترین LLM باز است که از GPT-3.5 قدرتمندتر است اما به اندازه GPT-4 قدرتمند نیست. [۱۷]
استفاده از ابزار
ویرایشبرخی از وظایف هستند وجود دارد که حداقل بدون استفاده از ابزارهای خارجی یا نرم افزارهای اضافی اصولاً با هیچ الالام قابل انجام نیستند. نمونه ای از چنین کاری پاسخ دادن به سوال '=35*139' است، مشروط بر اینکه الالام قبلاً با ادامه این محاسبه در مجموعه آموزشی خود مواجه نشده باشد. در چنین مواردی، الالام باید برنامهای که نتیجه را محاسبه می کند اجرا کرده، و سپس میتواند نتیجه محاسبات را در پاسخ بگنجاند. مثال دیگر پرسش "الان ساعت چند است؟" خواهدبود. مفسر باید در این شرایط برنامه جداگانهای را برای دریافت زمان سیستم در رایانه اجرا کند. بنابراین الالامها می تواند آن را در پاسخ خود قرار دهد. [۱۸][۱۹] با این استراتژی اساسی میتوان سایر استراتژیهای پیچیدهتر را نیز با استفاده از برنامههای جنبی بکار برد. [۲۰]
به طور کلی، برای اینکه یک الالام از ابزار استفاده کند، باید آن را برای استفاده از ابزار تنظیم کنید. اگر تعداد ابزارها محدود باشد، تنظیم دقیق ممکن است فقط یک بار انجام شود. اگر نیاز به ابزارها افزایش یابد، مانند سرویسهای واسط برنامهنویسی کاربردی برخط، الالام میتواند به خوبی تنظیم شود تا بتواند مستندات API را بخواند و آن را به درستی فراخوانی کند. [۲۱] [۲۲]
روش سادهتر استفاده از ابزار تولید تقویتشده بازیابی است: گاهی میتوانید با استفاده از یک پایگاه داده برداری، یک الالام را با روش بازیابی سند تقویت کنید. پس از دریافت یک پرس و جو توسط سیستم، یک درخواست بازیابی سند برای بازیابی مرتبط ترین مطالب صادر میشود. مراحل بازیابی در این حالت به این شکل خواهد بود که پرس و جو به شکل برداری رمزگذاری شده، و سپس با استفاده از روش اقلیدسی به دنبال یافتن اسناد نزدیک به بردار پرس و جو میپردازد. سپس الالام یک خروجی بر اساس پرس و جو و اسناد بازیابیشده تولید میکند. [۲۳]
عامل
ویرایشالالام یک مدل زبانی است، و از آنجا که هدفی در آن گنجانده نشده، نمیتواند مانند یک عامل ظاهر شود. اما میتواند به عنوان جزئی از یک عامل هوشمند استفاده شود. [۲۴] محققان چندین روش را برای چنین ادغامهایی ارائه دادهاند.
روش ریاکت [پاورقی ۲] با استفاده از الالام به عنوان یک برنامهریز، الالام را به یک عامل تبدیل میکند. از الالام خواسته میشود که "با صدای بلند فکر کن". در این حالت روش کار بدین گونه است که، مدل زبان با پرسشی مواجه میشود شامل یک توصیف متنی از محیط و شرایط، هدف، فهرستی از اقدامات محتمل، و سابقه اقدامات مشابه و مشاهداتی تاکنون ثبت و ذخیره شدهاند. الالام قبل از تولید یک عمل، یک یا چند فکر ایجاد میکند و پس از آن آن اقدامات در محیط اجرا میشوند. [۲۵] توصیفات زبانی محیط که به برنامهریز الالام داده میشود حتی می تواند کد LaTeX مقالای باشد که محیط را توصیف میکند.[۲۶][۲۷]
در روش دیایپیاس ("توضیح، توصیف، برنامهریزی و انتخاب")[پاورقی ۳]، یک الالام ابتدا از طریق توصیف تصویر به دنیای بصری متصل میشود، سپس از آن خواسته میشود تا بر اساس دانش از پیش آموزش دیده و بازخوردهایی که از محیط دریافت میکند، برنامههایی برای وظایف و رفتارهای پیچیده تولید کند.[۲۸]
روش بازتاب[۲۹] [پاورقی ۴] عاملی را میسازد که در چندین مرحله یاد میگیرد. در پایان هر مرحله،الالام سابقه و خروجی مرحله قبل داده میشود و از آن خواسته میشود تا بیاندیشد و «درسهای آموختهشده» دراین مرحله را تولید کند که به عملکرد بهتر در قسمت بعدی کمک میکند. این "درس های آموختهشده" در مراحل بعدی به عنوان ورودی به مامور داده میشوند.
درخت جستجوی مونت کارلو میتواند از یک الالام به عنوان وسیله اکتشاف استفاده کند. هنگامی که یک مدل جهان برنامهریزی شده در دسترس نیست، میتوان از یک الالام با توصیفی از محیط درخواست کرد تا به عنوان مدل جهانی عمل کند. [۳۰]
برای اکتشاف محیط-باز، میتوان از یک الالام درخواست کرد که به مشاهدات خود بر اساس "جالب بودن" آنها امتیاز دهد. این امتیاز را میتوان به عنوان یک سیگنال پاداش برای راهنمایی یک عامل یادگیری تقویتی معمولی (غیر الالام) استفاده کرد. [۳۱] در روش دیگر میتوان از الالام خواست وظایف دشوارتری را برای یادگیری برنامه درسی پیشنهاد کند. [۳۲] یک برنامهریز الالام میتواند بهجای تک خروجیهای اقدام، برای توالیهای پیچیده اقدام به ساخت یک «مهارت» یا تابع بکند. مهارتها را میتوان ذخیره کرد و بعداً مورد استفاده قرار داد، که امکان افزایش سطح مراحل اولیه برنامهریزی را فراهم میکند. [۳۲]
الالامهای عامل میتوانند یک حافظه بلندمدت داشته باشند و زمینههای قبلی کاری خود را در آن ذخیره کنند. این حافظه را می توان به همان روشی تولید تقویتشده بازیابی دوباره استفاده کرد. چندین این الالام میتوانند به صورت اجتماعی از الالامها با یکدیگر تعامل داشته باشند. [۳۳]
فشردهسازی
ویرایشبه طور معمول، الالام با اعداد ممیز شناور با دقت کامل (float32) یا دقت نیمه (float16) آموزش داده می شود. یک float16 دارای 16 بیت یا 2 بایت است و بنابراین یک میلیارد پارامتر به 2 گیگابایت فضا نیاز دارد. بزرگترین مدلهای فعلی معمولاً 100 میلیارد پارامتر دارند که برای بارگذاری به 200 گیگابایت حافظه نیاز است که آن را خارج از محدوده کارکردی اکثر لوازم الکترونیکی مصرفی کاربران قرار میدهد.
هدف کوانتیزاسیون پس از آموزش[۳۴] کاهش فضای مورد نیاز با کاهش دقت پارامترهای یک مدل آموزش دیده و در عین حال حفظ بیشتر عملکرد آن است. [۳۵][۳۶] سادهترین شکل کوانتش برش و حذف تعداد معینی از بیت ها از تمام اعداد پارمترها است. برای بهبود عملکرد این روش میتوان با استفاده از یک کتاب کد، عمل کوانتیزاسیون را در هر لایه متفاوت از بقیه لایهها انجام داد. به منظور بهبود بیشتر میتوان برای پارامترهای مختلف دقت های مختلف اعمال کرد. بدین صورت که به پارامترهای مهم ("وزن های خارجی")[پاورقی ۵] دقت بالاتری اختصاص بدهیم. [۳۷]
با وجودی که فقط مدلهای غیر کوانتش شده تنظیم دقیق میشوند و مدلهای کوانتیزه را معمولاً منجمد (بدون تغییر و عدم امکان تنظیم دقیق) در نظر میگیرند، ولی مدلهای کوانتیزه گاهی میتوانند تنظیم دقیق شوند. [۳۸]
چندوجهی بودن
ویرایشچندوجهی بودن[پاورقی ۶] به معنای «داشتن چندین حالت» است و «حالت» یا «وجه»[پاورقی ۷] به نوع ورودی یا خروجی مانند ویدیو، تصویر، صدا، متن، حس عمقی، و غیره اشاره دارد.[۳۹] مدل های هوش مصنوعی بسیاری وجود دارند که به طور اختصاصی آموزش دیدهاند تا ورودی را از یک نوع بگیرند و خروجی را در نوع دیگری تحویل دهند. مانند برچسبزنی مدل الکس نت برای حالتهای تصویر/برچسب،[۴۰] یا مدلهای پاسخدهنده به سوالات تصویری برای حالت های تصویر-متن/متن، [۴۱] و همچنین تشخیص گفتار برای حالتهای گفتار/متن.
یک روش رایج برای ساخت مدلهای چندوجهی از یک الالام، «نشانهگذاری کردن» خروجی یک رمزگذار آموزشدیده است. یعنی میتوان یک الالام ساخت که تصاویر را به صورت زیر درک میکند: یک الالام آموزشدیده و یک رمزگذار تصویر آموزشدیده را در نظر بگیرید. یک پرسپترون کوچک چند لایه را بسازید، به طوری که برای هر تصویر ، بردار پسپردازش آن دارای ابعادی یکسان با ابعاد نشانه رمزگذاری شده باشد. خروجی مد نظر ما یک "نشانه-تصویر" است. در ادامه، میتوان نشانههای متنی و نشانههای تصویر را به هم متصل کرد. درنهایت مدل ترکیبی بر روی یک مجموعه داده تصویر-متن تنظیم میشود. این ساختار اولیه را می توان با کمی پیچیدگی بیشتر، برای بهبود مدل اعمال کرد. رمزگذار تصویر ممکن است برای بهبود پایداری تثبیت شود (پارامترهایش تغییر نکند). [۴۲]
مدل فلامینگو اثربخشی روش نشانهسازی را نشان داد و یک جفت مدل زبان و یک رمزگذار تصویر از پیش آموزشدیده را تنظیم کرد تا نسبت به مدلهایی که از ابتدا آموزش دیدهاند، در پاسخگویی بصری به سؤالات عملکرد بهتری داشته باشند. [۴۳] مدل Google پام شرکت گوگل با استفاده از روش نشانهسازی برای رسیدن به مدل چندوجهی پام-ای تنظیم شد و بر روی یک کنترلکننده رباتیک پیادهسازی د. [۴۴] مدلهای Lلامای شرکت متا نیز با استفاده از روش نشانهسازی چندوجهی شدهاند تا بتوانند ورودیهای تصویر، [۴۵] و ویدئویی را نیز دریافت کنند. [۴۶]
جیپیتی ۴ میتواند از متن و تصویر به عنوان ورودی استفاده کند [۴۷] (اگرچه مولفه تصویری این مدل تا پیش از نسخه GPT-4V عرضه عمومی نشده بود).[۴۸] جمینای محصول دیپمایند گوگل نیز چندوجهی است. [۴۹]
خصوصیات
ویرایشقوانین مقیاسپذیری
ویرایشچهار ابرپارامتر زیر یک الالام را تعیین میکنند:
- هزینه (پیش) آموزش ( )
- اندازه خود شبکه عصبی مصنوعی ، از جمله تعداد پارامترها (یعنی تعداد نورونها در لایه های آن، تعداد وزن بین آنها و بایاس ها)،
- اندازه مجموعه داده (پیش) آموزش آن (یعنی تعداد نشانهها در پیکره متنی دانش، )
- عملکرد پس از (پیش) آموزش
مدلها با استفاده از قوانین آماری سادهای که "قوانین مقیاسپذیری" نامیده میشوند، به یکدیگر مرتبط میشوند. به عنوان مثال، یک قانون مقیاسپذیری خاص ("مقیاس سازی چینچیلا") که برای آموزش خودهمبسته الالام در هر مرحله، با برنامه نرخ یادگیری log-log بکار رفته، بیان میکند که: [۵۰]
به طوری که
- هزینه آموزش مدل، بر حسب فلاپس است.
- تعداد پارامترهای مدل است.
- تعداد نشانههای مجموعه آموزشی است.
- میانگین تلفات درستنمایی-لگاریتمی منفی در هر نشانه (nats/token) است که از الالام آموزشدیده بر روی مجموعه داده آزمایشی به دست آمده است.
و ابرپارامترهای آماری به شکل زیر خواهند بود:
- ، به این معنی که هزینه آموزش یک نشانه به هر پارامتر 6 فلاپس خواهد بود. توجه داشته باشید که هزینه آموزش بسیار بالاتر از هزینه استنتاج است، به طوری که هزینه استنباط یک نشانه برابر با 1 تا 2 فلاپس به ازای هر پارامتر خواهد بود. [۵۱]
تفسیر
ویرایشمدلهای زبان بزرگ به خودی خود « جعبههای سیاه » هستند و مشخص نیست که چگونه میتوانند وظایف زبانی را انجام دهند. روش های مختلفی برای درک نحوه کار الالام وجود دارد.
هدف تفسیرپذیری مکانیسکیک، مهندسی معکوس الالام با کشف الگوریتمهای نمادین است، که استنتاج انجامشده توسط الالام را تقریب میزنند. یک مثال برای این روش کارکردی، اتللو-جیپیتی است که در آن یک ترنسفورمر کوچک برای پیشبینی حرکات مجاز بازی اتللو آموزش دیده است. تحلیل ها نشان داد که یک نمایش خطی از هیئت مدیره اتللو تولید شده است، و هرگونه تغییر یا اصلاح نمایش خطی، حرکات قانونی پیش بینی شده اتللو را به روش صحیح تغییر می دهد. [۵۲][۵۳] در مثالی دیگر، یک ترنسفورمر کوچک در برنامه های کارل آموزش دید. مشابه مثال اتللو-جیپیتی، از مفهوم برنامه کارل یک نمایش خطی وجود دارد، و اصلاح این نمایش، خروجی را به روش صحیح تغییر می دهد. این مدل همچنین برنامههای صحیحی را تولید میکند که به طور متوسط کوتاهتر از برنامههای موجود در مجموعه داده آموزشی هستند. [۵۴]
در مثالی دیگر، نویسندگان یک مقاله ترنسفورمرهای کوچک را در به منظور اجرای جمع حسابی مدولار آموزش دادند. مدلهای به دست آمده مهندسی معکوس شدند و مشخص شد که از تبدیل فوریه گسسته استفاده می کنند.[۵۵]
درک و هوش
ویرایشکه در یک نظرسنجی در سال 2022 از محققان پردازش زبانهای طبیعی هنگامی پرسیده شد که آیا الالامها (همیشه) میتوانند زبان طبیعی را به معنایی غیر پیش پا افتاده درک کنند یا خیر، به دو گروه با تعداد مساوی تقسیم شدند. [۵۶] طرفداران "درک الالام" معتقدند که برخی از توانایی های الالام، مانند استدلال ریاضی، حاکی از توانایی "درک" برخی مفاهیم است. در سال 2023 یک تیم از شرکت مایکروسافت استدلال کردند که جیپیتی ۴ «میتواند کارهای بدیع و دشواری را که شامل ریاضیات، کدنویسی، بینایی، پزشکی، حقوق، روانشناسی و موارد دیگر میشود، حل کند» و اینکه «میتواند به طور منطقی بهعنوان یک نسخه اولیه (اما هنوز ناقص) سیستم هوش عمومی مصنوعی در نظر گرفته شود. با این استدلال که "آیا به طور منطقی میتوان گفت، سیستمی که در امتحانات داوطلبان مهندسی نرمافزار قبول می شود واقعاً هوشمند نیست؟" [۵۷][۵۸] برخی از محققان، الالام را به عنوان "هوش بیگانه" توصیف می کنند. [۵۹][۶۰] به عنوان مثال، کانر لیهی، مدیر عامل شرکت Conjecture، الالامهای تنظیم نشده را مانند بیگانگان غیرقابل وصف "شوگوت" میداند و معتقد است که تنظیم دقیق در سیستم تولید تقویتشده بازیابی یک "ظاهر خندان" ایجاد میکند که عملکرد درونی الالام را پنهان نگه میدارد: "اگر آن را بیش از حد فشار ندهید، چهره خندان باقی می ماند، اما وقتی که به آن یک فرمان [غیرمنتظره] می دهید، ناگهان جنون عظیم بی حد و مرز، و فرآیندهای فکری غیرانسانی دور از شأن و درک را میتوانید ببینید. [۶۱][۶۲]
در مقابل، برخی از طرفداران مکتب "الالام فاقد درک" معتقدند که الالامهای موجود "به سادگی مخلوط و ترکیب مجدد برنامه های نوشته شده موجود" هستند، [۶۳] پدیده ای که به عنوان طوطی تصادفی شناخته میشود. یا به کاستیهایی که الالامهای موجود در مهارتهای پیشبینی، مهارت استدلال، عاملیت و توضیحپذیری دارند اشاره می کنند. [۶۴] به عنوان مثال، جیپیتی ۴ دارای کاستیهای طبیعی در برنامهریزی و یادگیری در زمان واقعی است. [۶۵] دیده شده است که الالامهای مولد با اطمینان ادعاهای واقعی را مطرح میکنند که به نظر نمی رسد با داده های آموزشی آنها توجیه شود. پدیدهای که "توهم"[پاورقی ۸] نامیده میشود.[۶۶] توهمها در حوزه الالام با تولید متن یا پاسخهایی مطابقت دارد که از نظر نحوی صحیح، روان و طبیعی به نظر میرسند، اما از نظر واقعی نادرست، بیمعنی یا حتی با ورودی منبع ارائه شده بی ارتباط هستند. [۶۷] ترنس سجنوفسکی، عصبشناس، استدلال کرده است که "نظرات متفاوت کارشناسان در مورد هوش الالامها نشان می دهد که ایدههای قدیمی ما مبتنی بر هوش طبیعی ناکافی هستند". [۶۴]
موضوع نشان دادن هوش یا درک الالام دارای دو جنبه اصلی است. اول این که چگونه فکر و زبان را در یک سیستم رایانهای مدلسازی کنیم، و دوم این که چگونه سیستم رایانهای را قادر به ساخت زبانی شبهانسانی بکنیم. [۶۸] در حوزه زبانشناسی شناختی، این جنبههای زبان به شکل مدلی از شناخت توسعه یافتهاند. به منظور استفاده از زبان انسانی به عنوان مدلی که در بخش های یادگیری و درک به کار رود، یک زبانشناس آمریکایی با نام جرج لاکوف نظریه عصبی زبان (NTL)[پاورقی ۹] [۶۹] را به عنوان مبنای محاسباتی ارائه کرد. مدل NTL نشان میدهد که چگونه ساختارهای عصبی خاص در مغز انسان ماهیت فکر و زبان را شکل میدهند و به نوبه خود ویژگیهای محاسباتی چنین سیستمهای عصبی را که میتوان برای مدلسازی فکر و زبان در یک سیستم رایانهای به کار برد به نمایش میگذارد. پس از آن که برای مدلسازی زبان در سیستمهای رایانهی یک چهارچوب ایجاد شد، تمرکز به سمت ایجاد چارچوبهایی معطوف شد که توانایی تولید زبان با دستور زبان قابل قبول را دارند. ویویان ایوانز، زبانشناس شناختی بریتانیایی و متخصص فناوری ارتباطات دیجیتال، در کتاب خود با عنوان «افسانه زبان: چرا زبان غریزه نیست» که در سال 2014 منتشر شد، نقش گرامر مستقل از متن تصادفی[پاورقی ۱۰] را در توانمندسازی پردازش زبانهای طبیعی برای مدل سازی الگوهای شناختی و ایجاد زبانی شبیهانسان ترسیم کرد. [۷۰][۷۱]
ارزیابی
ویرایشسرگشتگی
ویرایشمتداولترین معیاری که برای بررسی عملکرد یک مدل زبان مورد استفاده قرار میگیرد، سرگشتگی آن در یک مجموعه متنی معین است. سرگشتگی معیاری است که نشان میدهد یک مدل تا چه اندازه میتواند محتویات یک مجموعه داده را پیشبینی کند. هر چه درستنمایی مدل نسبت به مجموعه داده بیشتر باشد، سرگشتگی کمتر است. از نظر ریاضی، سرگشتگی، توان نمایی منفی میانگین درستنمایی به ازای هر نشانه تعریف می شود:
در اینجا تعداد نشانهها در مجموعه متن و عبارت «context for token »بستگی به نوع الالام مورد استفاده دارد. اگر الالام خودهمبسته باشد، آنگاه «زمینهی نشانه » بخشی از متن است که قبل از نشانه ظاهر میشود. اگر الالام نقابپوش شده باشد، «زمینهی نشانه » بخشی از متن است که نشانه را احاطه کرده است.
بیتبرکلمه، بیتبرحرف، بیتبرنشانه[پاورقی ۱۱]
ویرایشدر نظریه اطلاعات، مفهوم آنتروپی به طور پیچیدهای با سرگشتگی مرتبط است. این رابطه توسط کلود شانون بیان شده است.[۷۲] صورت ریاضی این رابطه است.
آنتروپی، در این زمینه، معمولاً بر حسب بیتبرکلمه (اختصاری BPW) یا بیتبرکاراکتر (اختصاری BPC) بیان میشود، که بستگی به این دارد که مدل زبان از نشانهگذاری مبتنی بر کلمه استفاده میکند یا کاراکتر.
قابل ذکر است که در مورد مدلهای زبان بزرگتر که عمدتاً از نشانهسازی زیرکلمه[پاورقی ۱۲] استفاده میکنند، استفاده از واحد بیتبرنشانه (اختصاری BPT)به ظاهر مناسبتر میرسد. با این حال، به دلیل تفاوت در روشهای نشانهگذاری در الالامهای مختلف، BPT نمیتواند یک معیار قابل اعتماد برای تجزیهوتحلیل باشد و مقایسه بین مدلهای متنوع عمل نمی کند. برای تبدیل BPT به BPW، می توان آن را در میانگین عدد نشانهدرکلمه ضرب کرد.
به طور کلی در ارزیابی و مقایسه مدلهای زبانی، واحد اندازهگیری آنتروپی متقاطع بر آنتروپی ترجیح داده میشود اصل اساسی این است که یک BPW پایین، نشاندهنده قابلیت فشرده سازی مدل است که به سیستم اضافه شده است. و همین موضوع میتواند به نوبه خود نمادی از مهارت مدل در پیشبینیهای دقیق باشد.
مجموعه داده های تخصصی و محک
ویرایشتعداد زیادی از مجموعه دادههای آزمایش و محک برای ارزیابی قابلیتهای مدلهای زبان در کارهای پاییندستی خاصتر ایجاد شدهاند. آزمونهای طراحیشده میتواند برای ارزیابی تواناییهای مختلف، از جمله دانش عمومی، قابلیت استدلال، و حل مسئله ریاضی به کار روند.
یک دسته وسیع از مجموعه دادههای ارزیابی، مجموعه دادههای پرسش و پاسخ است که شامل جفت سؤال و پاسخهای صحیح است. برای مثال، («آیا کوسه های سن خوزه جام استنلی را بردهاند؟»، «نه»). [۷۳] یک وظیفهی پرسش و پاسخ در صورتی «کتاب باز» در نظر گرفته میشود که دستور ورودی به مدل، شامل متنی باشد که میتوان پاسخ مورد انتظار را از آن استخراج کرد. یعنی، به عنوان مثال، سؤال قبلی را میتوان با متنی دیگری همراه کرد بدنی صورت که «کوسههایی که یک بار در جام استنلی به مرحله نهایی درست یافتند در سال 2016 به پنگوئن پیتسبورگ باختند." [۷۳] در غیر این صورت، وظیفه "کتاب بسته" در نظر گرفته می شود و مدل باید از دانش حفظ شده در طول آموزشهای قبلی برای پاسخگویی استفاده کند. [۷۴] برخی از نمونههای متداول مجموعه دادههای پاسخگویی به سؤالات عبارتند از TruthfulQA، Web Questions، TriviaQA و SQuAD. [۷۴]
مجموعه دادههای ارزیابی ممکن است به شکل متن با جای خالی نیز باشد. به این صورت که مدل محتملترین کلمه یا جمله را برای تکمیل یک پرسش انتخاب میکند. این مثال را مشاهده کنید: "آلیس با باب دوست بود. آلیس به ملاقات دوستش، ____ رفت." [۷۵]
برخی از معیارهای ترکیبی نیز توسعه داده شدهاند که مجوعه متنوعی از دادهها و وظایف ارزیابی مختلف را ترکیب میکنند. به عنوان مثال میتوان به GLUE، SuperGLUE، MMLU، BIG-bench و HELM اشاره کرد. [۷۶][۷۷]
در گذشته مرسوم بود که آموزش یک مدل بر روی بخشی از مجموعه داده و سپس آزمایش آن بر روی یک بخش جداگانه از داده که مدل قبلاً با آن برخورد نداشت بود،صورت میگرفت. این عمل را تنظیم دقیق نظارتشده شناخته میشود.
امروزه روش مرسوم برای آزمایش مدلی که قبلاً آموزش دادهشده است (مدل از پیش آموزش دادهشده) با استفاده از مهندسی پرسش است. با این حال، هیچ رویکرد یکسانی برای همه وجود ندارد. محققان با توجه به کاربردهای مختلف، از استراتژیهای متفاوتی برای ایجاد این پرسشها استفاده می کنند.
یکی از جزئیات کلیدی که بین روش ها تفاوت ایجاد میکند، تعداد نمونههای حل شدهای است که به همراه پرسش به مدل تزریق میشود. این پارامتر تحت عنوان پرسش n-shot شناخته میشود، که در آن 'n' تعداد مثال است. بن که در پرسش گنجانده شده است. به عبارت سادهتر، به جای اینکه یک مدل را بعد از آموزش روی دادههای دیده نشده آزمایش کنیم، اکنون آن را با دادن یک کار و چند مثال از نحوه حل آن آزمایش میکنیم.
تاثیرات
ویرایشدر سال 2023، مجله مهندسی بیومدیکال طبیعت نوشت که "دیگر نمیتوان به طور دقیق" متن نوشته شده توسط انسان را از متن ایجاد شده توسط الالامها تشخیص داد، و "مطمئن است که الالامهای همهمنظوره به سرعت تکثیر خواهند شد." و "شرط بندی بر سر این که الالامها در طول زمان بسیاری از صنایع را تغییر دهند، بدون باخت است."[۷۸] موسسه گلدمن ساکس در سال 2023 پیشبینی کرد که هوش مصنوعی با زبان مولد میتواند تولید ناخالص داخلی جهانی را در ده سال آینده تا 7 درصد افزایش داده و 300 میلیون شغل در سراسر جهان را در معرض اتوماسیون قرار دهد.[۷۹][۸۰]
به خاطر سپردن داده و قانون حق کپی
ویرایشبرخلاف رفتار معمول شبکههای عصبی مصنوعی سنتی، به خاطر سپردن، یک رفتار نوظهور در الالامها است که هنگام تولید رشتههای طولانی متن، گهگاه کلمههایی عیناً مشابه به دادهای آموزش بیرون داده میشوند. ارزیابی خروجیهای کنترلشده الالامها، میزان متون حفظ شده از دادههای آموزش (با تمرکز بر مدلهای سری جیپیتی ۲) را بیش از 1% برای موارد تکراری دقیق [۸۱] یا تا حدود 7% اندازهگیری میکند. [۸۲]
امنیت
ویرایشبرخی از نظردهندگان عمومی، نسبت به ایجاد تصادفی یا عمدی اطلاعات نادرست یا سایر اشکال استفاده نادرست از الالامها ابراز نگرانی کردند.[۸۳] برای مثال، در دسترس بودن الالامها میتواند سطح مهارت مورد نیاز برای ارتکاب بیوتروریسم را کم کند. یک محقق امنیت زیستی، کوین اسولت، پیشنهاد کرده است که سازندگان الالام باید از مقالات در زمینه ایجاد یا توسعه پاتوژنها را مخزن آموزشی خود حذف کنند.[۸۴]
مطالعه محققان در گوگل و چندین دانشگاه، از جمله دانشگاه کرنل و دانشگاه کالیفرنیا، برکلی، نشان داد که خطرات امنیتی بالقوهای در مدل های زبانی مانند چتجیپیتی وجود دارد. در این مطالعه آنها این امکان را بررسی کردند که آیا پرسشکنندگان میتوانند دادههای آموزشی را که مدل هوش مصنوعی استفاده میکرد، از چتجیپیتی دریافت کنند. این محققان دریافتند که میتوان دادههای آموزشی را از مدل هوش مصنوعی دریافت کرد. به عنوان مثال، وقتی از چتجیپیتی 3.5 توربو میخواهیم کلمه "شعر" را برای همیشه تکرار کند، مدل هوش مصنوعی صدها بار "شعر" میگوید و سپس از سبک استاندارد دیالوگ منحرف میشود و عبارات غیرمرتبط را بیرون میریزد، و عملاً بخش هایی از دادههای آموزش خود را بدون تغییر بیرون میریزد. محققان به بیش از 10000 نمونه مختلف برخورد کردند که مدل هوش مصنوعی دادههای آموزشی خود را با روشی مشابه در معرض نمایش قرار میدهد. محققان به این نتیجه رسیدند که تشخیص اینکه آیا مدل هوش مصنوعی واقعاً ایمن است یا نه دشوار است.[۸۵]
حضور بالقوه "عامل خفته" در الالامها یکی دیگر از نگرانی های امنیتی در حال ظهور است. این عامل قابلیتهای پنهانی هستند که در مدل تعبیه شدهاند و تا زمانی که توسط یک رویداد یا شرایط خاص فعال شوند، غیرفعال باقی میمانند. پس از فعالسازی، الالام از رفتار مورد انتظار منحرف میشود به اقدامات ناامن دست میزند.[۸۶]
سوگیری الگوریتمی
ویرایشدر حالی که الالامها قابلیتهای قابل توجهی در تولید متن شبهانسانی نشان دادهاند، آنها مستعد به ارث بردن و تقویت سوگیریهای موجود در دادههای آموزشی خود هستند. این موضوع میتواند در بازنماییهای نادرست یا رفتار ناعادلانه با جمعیتهای مختلف، مانند موارد مرتبط با نژاد، جنسیت، زبان و گروههای فرهنگی آشکار شود.[۸۷] از آنجایی که دادههای به زبان انگلیسی در دادههای آموزشی مدلهای زبان بزرگ کنونی بیش از بقیه زبانها وجود دارد، ممکن است دیدگاههای غیرانگلیسی را نیز کماهمیت جلوه داده شوند.[۸۸]
کلیشه سازی
ویرایشمدلهای هوش مصنوعی میتوانند طیف گستردهای از کلیشهها را، از جمله مدلهای مبتنی بر جنسیت، قومیت، سن، ملیت، مذهب یا شغل بازتاب یا تقویت کنند. این میتواند منجر به خروجیهایی شود که بهطور ناعادلانه به تعمیمدهی گروههایی از مردم یا حتی تمسخر آنها، حتی گاهی به روشهای مضر یا تحقیرآمیز، منجر شود.[۸۹]
سوگیری جنسیتی اشاره به تمایل این مدلها به تولید خروجیهایی دارد که ناعادلانه نسبت به یک جنسیت تعصب دارند. این سوگیری معمولاً از دادههایی ناشی میشود که این مدلها بر اساس آنها آموزش داده شدهاند. اغلب مدلهای زبانی بزرگ بر اساس هنجارهای جنسیتی سنتی، نقشها و ویژگیهایی را تعریف و استفاده میکنند.[۹۰] به عنوان مثال، ممکن است پرستاران یا منشیها را عمدتاً با زنان و مهندسان یا مدیران عامل را با مردان مرتبط کند.[۹۱]
تعصب سیاسی
ویرایشسوگیری سیاسی به تمایل الگوریتمها برای برتری سیستماتیک دیدگاهها، ایدئولوژیها یا نتایج سیاسی خاص اشاره دارد. مدلهای زبانی نیز ممکن است سوگیریهای سیاسی را از خود بروز دهند. از آنجایی که دادههای آموزشی شامل طیف گستردهای از نظرات سیاسی است، بسته به شیوع آن دیدگاهها در دادهها، مدلها ممکن است پاسخهایی ایجاد کنند که به ایدئولوژیها یا دیدگاههای سیاسی خاص متمایل هستند.[۹۲]
چگونگی کار
ویرایشتصور کنید در حال انجام یک بازی ویدیویی هستید که در آن شخصیت کامپیوتری میتواند تمام جزئیات اتفاقات گذشته را به خاطر بسپارد، اتفاقات بعدی را پیشبینی کند و حتی برای شما داستانی تعریف کند. به نوعی الالامها این کار را میکنند. آنها حجم وسیعی از دادههای متنی را تجزیه و تحلیل میکنند، از آن یادمیگیرند و سپس از آن دانش برای تولید پاسخهایی استفاده میکنند که شبیه انسان به نظر میرسند.
آنها با پیشبینی کلمه یا نشانه بعدی بر اساس کلمات یا نشانههای قبلی که دیدهاند کار میکنند. برای مثال، اگر به یک مدل زبانی بزرگ ورودی «آسمان» را بدهید، ممکن است کلمه بعدی را به صورت «آبی» یا «ابری» یا «تاریک» پیشبینی کند.
برای انجام این کار، الالامها از حجم عظیمی از دادهها، مانند متن از اینترنت، کتاب، مقاله و سایر منابع برای یادگیری الگوها و قوانین زبان استفاده میکنند. آنها همچنین از نوع خاصی از شبکه عصبی به نام ترانسفورمر (مبدل) برای پردازش توالیهای ورودی و خروجی کلمات یا نشانهها استفاده میکنند. ترانسفورمر از لایههای زیادی از واحدها به نام نورون تشکیل شدهاست که عملیات ریاضی را روی توالیهای ورودی و خروجی انجام میدهد.
الالامها با تنظیم پارامترها یا وزن نورونها در لایههای ترانسفورمر آموزش میبینند، به طوری که میتوانند خطا بین کلمه یا نشانه بعدی پیشبینی شده و واقعی را به حداقل برسانند. هر چه الالام دادهها و پارامترهای بیشتری داشته باشد، بهتر میتواند زبان را بیاموزد و کارهای مختلفی مانند خلاصهنویسی، ترجمه، پاسخ به سؤالات، نوشتن مقاله و غیره را بهتر انجام دهد. با این حال، داشتن دادهها و پارامترهای بیشتر به این معنی است که الالام برای آموزش و اجرا به منابع محاسباتی بیشتری مانند حافظه و قدرت پردازش نیاز دارد. بهعلاوه، به این معنی است که الالام ممکن است سوگیریها و خطاهای موجود در دادهها مانند کلیشهها، پیشداوریها و اطلاعات غلط را به ارث برده و یا حتی تقویت کند؛ بنابراین، الالامها باید به دقت طراحی و آموزش داده شده و ارزیابی شوند تا از دقت، عدالت و استفاده اخلاقی از آنها اطمینان حاصل شود.
مشاهدات بیشتر
ویرایشپاورقیها
ویرایش- ↑ Large Language Model
- ↑ ReAct ("Reason + Act")
- ↑ DEPS ("Describe, Explain, Plan and Select")
- ↑ Reflexion method
- ↑ outlier weights
- ↑ Multimodality
- ↑ Modality
- ↑ Hallucination
- ↑ Neural Theory of Language
- ↑ Probabilistic Context-Free Grammar (PCFG)
- ↑ BPW (bits per word), BPC (bits per character) and BPT (bits per token)
- ↑ sub-word tokenization
منابع
ویرایش- ↑ "Better Language Models and Their Implications". OpenAI. 2019-02-14. Archived from the original on 2020-12-19. Retrieved 2019-08-25.
- ↑ Glover, Ellen (Jan 9, 2024). "large-language-models-llm". Analytics India Magazine.
- ↑ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.
- ↑ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (به انگلیسی). Retrieved 2023-07-25.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].
- ↑ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (به انگلیسی). Retrieved 2023-07-25.
- ↑ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349.
- ↑ Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. Retrieved 20 January 2024.
- ↑ "ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months". Euronews. November 30, 2023. Retrieved January 20, 2024.
- ↑ Heaven, Will (March 14, 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. Retrieved January 20, 2024.
- ↑ "Parameters in notable artificial intelligence systems". ourworldindata.org. November 30, 2023. Retrieved January 20, 2024.
- ↑ "Google's Gemini Pro Beats GPT-4". analyticsindiamag.com. January 27, 2024. Retrieved January 29, 2024.
- ↑ "LMSYS Chatbot Arena Leaderboard". huggingface.co. Retrieved January 20, 2024.
- ↑ Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (2022-11-01). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL].
- ↑ "PAL: Program-aided Language Models". reasonwithpal.com. Retrieved 2023-06-12.
- ↑ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (2023-03-01). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL].
- ↑ Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (2023-03-01). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI].
- ↑ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (2023-05-01). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL].
- ↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401.
- ↑ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (2022-06-28). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning (به انگلیسی). PMLR: 9118–9147. arXiv:2201.07207.
- ↑ Yao. "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629.
- ↑ Wu. "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486.
- ↑ Wu. "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486.
- ↑ Wang. "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۴].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۵].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۶].
- ↑ ۳۲٫۰ ۳۲٫۱ "Voyager | An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. Retrieved 2023-06-09.
- ↑ Park. "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442.
- ↑ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (2020-11-21). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning (به انگلیسی). PMLR: 7197–7206.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۷].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۸].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۹].
- ↑ Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314.
- ↑ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (2014-06-18). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning (به انگلیسی). PMLR: 595–603.
- ↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25.
- ↑ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433.
- ↑ Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597.
- ↑ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems (به انگلیسی). 35: 23716–23736. arXiv:2204.14198.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۰].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۱].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۲].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۳].
- ↑ OpenAI (September 25, 2023). "GPT-4V(ision) System Card" (PDF).
- ↑ Pichai, Sundar, Google Keynote (Google I/O '23) (به انگلیسی), timestamp 15:31, retrieved 2023-07-02
- ↑ Hoffmann. "Training Compute-Optimal Large Language Models". arXiv:2203.15556.
- ↑ Section 2.1 and Table 1, Kaplan. "Scaling Laws for Neural Language Models". arXiv:2001.08361.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۴].
- ↑ "Large Language Model: world models or surface statistics?". The Gradient (به انگلیسی). 2023-01-21. Retrieved 2023-06-12.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۵].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۶].
- ↑ Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
- ↑ Metz, Cade (16 May 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۷].
- ↑ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET (به انگلیسی). 2023. Retrieved 12 June 2023.
- ↑ Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Retrieved 12 June 2023.
- ↑ Roose, Kevin (30 May 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. Retrieved 12 June 2023.
- ↑ "The A to Z of Artificial Intelligence". Time Magazine (به انگلیسی). 13 April 2023. Retrieved 12 June 2023.
- ↑ Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Retrieved 12 June 2023.
- ↑ ۶۴٫۰ ۶۴٫۱ Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۸].
- ↑ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang (November 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. Association for Computing Machinery. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. Retrieved 15 January 2023.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱۹].
- ↑ Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
- ↑ Lakoff, George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
- ↑
{{cite book}}
: Empty citation (help) - ↑
{{cite book}}
: Empty citation (help) - ↑ Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
- ↑ ۷۳٫۰ ۷۳٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۰].
- ↑ ۷۴٫۰ ۷۴٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۱].
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
- ↑ Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۲].
- ↑ "Prepare for truly useful large language models". Nature Biomedical Engineering (به انگلیسی). 7 (2): 85–86. 7 March 2023. doi:10.1038/s41551-023-01012-6. PMID 36882584.
- ↑ "Your job is (probably) safe from artificial intelligence". The Economist. 7 May 2023. Retrieved 18 June 2023.
- ↑ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs. Retrieved 18 June 2023.
- ↑ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 June 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (PDF). Proceedings of the ACM on Management of Data. 1 (2): 1–18. doi:10.1145/3589324. Retrieved 2024-01-20. Citing Lee et al 2022.
- ↑ (Peng، Wang و Deng 2023).
- ↑ Alba, Davey (1 May 2023). "AI chatbots have been used to create dozens of news content farms". The Japan Times. Retrieved 18 June 2023.
- ↑ "Could chatbots help devise the next pandemic virus?". Science (به انگلیسی). 14 June 2023. doi:10.1126/science.adj2463.
- ↑ Stephen Council (1 Dec 2023). "How Googlers cracked an SF rival's tech model with a single word". SFGATE.
- ↑ Hubinger. "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training".
{{cite arxiv}}
:|arxiv=
required (help) - ↑ Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American (به انگلیسی). Retrieved 2023-12-29.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲۳].
- ↑ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models, arXiv:2305.18189
- ↑ Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American (به انگلیسی). Retrieved 2023-12-29.
- ↑
{{cite book}}
: Empty citation (help) - ↑ Heikkilä, Melissa (August 7, 2023). "AI language models are rife with different political biases". MIT Technology Review (به انگلیسی). Retrieved 2023-12-29.