پیش‌نویس:ترکیب متخصصان

ترکیب متخصصان (اختصاری MoE) یک تکنیک یادگیری ماشینی است که در آن از چندین شبکه متخصص (یادگیرنده) به منظور تقسیم‌بندی یک فضای مسئله، به مناطق همگن استفاده می شود. ^[۱] تفاوت آن با تکنیک‌های یادگیری گروهی در این است که در MoE بر روی هر ورودی، تنها یک یا چند مدل متخصص اجرا می‌شوند، برخلاف تکنیک‌های گروهی، که همه مدل‌ها بر روی همه ورودی‌ها اجرا می‌شوند.

نظریه پایه ویرایش

ترکیب متخصصان، همیشه دارای موارد زیر است. این عوامل متفاوت از هم ساخته و نهایتاً ترکیب می‌شوند.

متخصصان $f_{1},...,f_{n}$ را داریم، که همه آنها ورودی یکسان $x$ را دریافت می کنند، و خروجی‌های $f_{1}(x),...,f_{n}(x)$ را تولید می‌کند.
یک تابع وزن‌دهی واحد (با نام مستعار تابع دروازه) $w$ وجود دارد، که $x$ را به عنوان ورودی دریافت کرده و بردار خروجی‌های $(w(x)_{1},...,w(x)_{n})$ را تولید می کند.
$\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ مجموعه ای از پارامترها است. پارامتر $\theta _{0}$ برای وزن‌دهی تابع به کار می‌رود.
ترکیب متخصصان با داشتن ورودی $x$ ، با توجه به وزن های $w(x)_{1},...,w(x)_{n}$ ، مقادیر $f_{1}(x),...,f_{n}(x)$ را تجمیع کرده و یک خروجی مرکب تولید می کند.

به منظور به حداقل رساندن تابع هزینه، هم متخصصان و هم تابع وزن‌دهی با استفاده از روش گرادیان کاهشی، آموزش داده می‌شوند. در انتخاب تابع وزن‌دهی و تابع هزینه که شکل‌بندی دقیق متخصصان را تعیین کند، محدودیتی وجود ندارد.

شبکه متا-پی ویرایش

شبکه متا-پی^{[پاورقی ۱]}، که توسط همپشایر و وایبل ارائه شده است،^[۲] از $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ به عنوان تابع خروجی استفاده می‌کند. آموزش این مدل با اعمال گرادیان کاهشی بر روی افت خطای میانگین مربع $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ انجام می‌شود. متخصصان می‌توانند هر تابع دلخواهی باشند.

نویسندگان مقاله در انتشار اولیه آن، مسئله طبقه‌بندی واج‌ها در سیگنال گفتاری 6 سخنران مختلف ژاپنی، شامل 2 زن و 4 مرد، را حل کردند. آنها 6 متخصص را آموزش دادند که هر کدام یک «شبکه عصبی با تأخیر زمانی» (در اصل یک شبکه کانولوشن چندلایه بر روی طیف‌نگار mel ) بودند. سپس دریافتند که ترکیب متخصصان بدست آمده، 5 متخصص را به 5 سخنران اختصاص داده است، اما گوینده ششم (مرد) متخصص اختصاصی ندارد. در عوض صدای او توسط ترکیب خطی متخصصان مرتبط با 3 سخنران مرد دیگر طبقه‌بندی شده است.

ترکیب‌های تطبیقی از متخصصان محلی ویرایش

ترکیب تطبیقی متخصصان محلی ^[۳]^[۴] از یک مدل ترکیبی گاوسی استفاده می کند. هر متخصص یک توزیع گاوسی را پیش‌بینی می‌کند و ورودی را کاملاً نادیده می‌گیرد. به بیان دقیق‌تر، متخصص $i$ -ام پیش‌بینی می‌کند که خروجی $y\sim N(\mu _{i},I)$ است، به طوری که $\mu _{i}$ یک پارامتر آموزش‌پذیر است. تابع وزن‌دهی یک تابع بیشینه هموار خطی ^{[پاورقی ۲]} است:

w(x)_{i}={\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}

ترکیب متخصصان پیش‌بینی می‌کند که خروجی بر اساس تابع توزیع چگالی احتمال تولید می‌شود:

f_{\theta }(y|x)=\ln \left[\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}N(y|\mu _{i},I)\right]=\ln \left[(2\pi )^{-d/2}\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}e^{-{\frac {1}{2}}\|y-\mu _{i}\|^{2}}\right]

این تابع با روش تخمین حداکثر احتمال، یعنی گرادیان صعودی بر روی

f(y|x)

آموزش می‌بیند. گرادیان برای متخصص

i

-ام به قرار زیر خواهد بود:

\nabla _{\mu _{i}}f_{\theta }(y|x)={\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}\;(y-\mu _{i})

و گرادیان، برای تابع وزنی به قرار زیر است:

\nabla _{[k_{i},b_{i}]}f_{\theta }(y|x)={\begin{bmatrix}x\\1\end{bmatrix}}{\frac {w(x)_{i}}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}(f_{i}(x)-f_{\theta }(y|x))

تابع وزن‌دهی برای هر جفت ورودی-خروجی

(x,y)

تغییر می‌کند تا وزن همه متخصصانی که بالاتر از میانگین کار کرده‌اند افزایش یابد و وزن همه متخصصانی که کمتر از میانگین کار کرده‌اند کاهش یابد. با این کار تابع وزن‌دهی تشویق می‌شود تا یاد بگیرد فقط متخصصانی را انتخاب کند که پیش‌بینی‌های درست را برای هر ورودی انجام می‌دهند.

متخصص $i$ -ام برای نزدیک‌تر کردن پیش‌بینی خود به $y$ تغییر می‌کند. میزان این تغییر متناسب با $w(x)_{i}N(y|\mu _{i},I)$ است. در واقع این کار یک استنباط بیزی است. با داشتن ورودی $x$ ، احتمال پیشین که متخصص $i$ پاسخ درست بدهد $w(x)_{i}$ است. و $N(y|\mu _{i},I)$ احتمال شاهد $y$ است.

بنابراین، ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ احتمال پسین برای متخصص $i$ -ام است. در نتیجه نرخ تغییر برای متخصص $i$ -ام متناسب با احتمال پسین آن است.

به بیان دیگر می‌توان گفت: از متخصصانی که در گذشته، متخصصان خوبی برای مشورت به نظر می‌رسیدند، خواسته می‌شود تا بر روی داده ها آموزش ببینند. متخصصانی که در گذشته برای مشورت مناسب نبودند، رها شده‌اند.

اثر ترکیبی بدین گونه است که متخصصان تبهر پیدا می‌کنند: فرض کنید دو متخصص هر دو در پیش‌بینی یک ورودی خاص خوب هستند، اما یکی کمی بهتر است، در این صورت تابع وزن‌دهی در نهایت یاد می‌گیرد که به نفع آن یکی که بهتر بوده تمایل پیدا کند. پس از این اتفاق، متخصص ضعیف‌تر قادر به دریافت سیگنال گرادیان بالاتر نیست و در پیش‌بینی ورودی بدتر و بدتر می‌شود. برعکس، متخصص ضعیف‌تر می‌تواند در پیش‌بینی دیگر انواع ورودی‌ بهتر عمل کند و به طور فزاینده‌ای به منطقه دیگری کشیده شود. این روش یک اثر بازخوردی مثبت دارد و باعث می‌شود هر متخصص از بقیه جدا شود و به تنهایی یک منطقه محلی را تحت نظر بگیرد. بنابراین در این لحظه نام "متخصصان محلی" معنادار می‌شود.

ترکیب متخصصان سلسله مراتبی ویرایش

لایه MoE - اثر دروازه بر روی ورودی و توابع

ترکیب متخصصان سلسله مراتبی ^[۵]^[۶] از چندین سطح مختلف دروازه در یک [ساختار] درخت استفاده می‌کند. هر دروازه یک توزیع احتمال جهت اعمال بر روی سطح بعدی دروازه‌ها است. متخصصان روی [گره های] برگ درخت هستند. این ساختار بسیار شبیه به درختان تصمیم است.

یک MoE سلسله مراتبی 2 سطحی نوعی به عنوان مثال، یک تابع دروازه ای مرتبه اول $w_{i}$ ، توابع دروازه‌ای مرتبه دوم $w_{j|i}$ و متخصصان $f_{j|i}$ را شامل می‌شود. لذا پیش‌بینی کل $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ خواهد بود.

انواع ویرایش

ترکیب متخصصان، که شبیه به مدل ترکیبی گاوسی است، می‌تواند مشابه به روش الگوریتم حداکثرسازی انتظارات آموزش ببیند، که همانند مدل‌های مخلوط گاوسی است. به عنوان یک مثال خاص، در مرحله انتظار، "بار" (که برای توضیح هر نقطه داده به کار می رود) بین متخصصان توزیع می‌شود. در مرحله حداکثر سازی، دو کار انجام می‌شود.

متخصصان، آموزش می‌بینند تا توضیحاتی را بهبود بخشند، که برای آنها بار زیادی دریافت کرده‌اند
دروازه‌ها، برای بهبود سهمیه‌بندی و توزیع "بار" آموزش می‌بیند.

با این روش تابع درست‌نمایی لگاریتمی سریعتر از روش گرادیان صعودی می‌تواند همگرا شود. ^[۶]^[۷]

انتخاب تابع دروازه‌ای اغلب انتخاب تابعی از نوع یک بیشینه هموار است. به علاوه، ^[۸] استفاده از توزیع های گاوسی و ^[۷] استفاده از خانواده توابع نمایی پیشنهاد شده است.

به جای پیاده‌سازی مجموع وزنی از همه متخصصان، در MoE سخت، ^[۹] تنها از متخصص با بالاترین رتبه استفاده می‌شود. به این معنا که، $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ . با این کار زمان آموزش و استنتاج تسریع می‌شود.

متخصصان می توانند از انواع کلی‌تری از توزیع‌های گاوسی چند‌متغیره استفاده کنند. به عنوان مثال، مقاله ^[۵] پیشنهاد کرد $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ ، که همگی $A_{i}$ ، $b_{i}$ ، و $\Sigma _{i}$ پارامترهای قابل یادگیری هستند. به بیان دیگر، هر متخصص یاد می‌گیرد که رگرسیون خطی را با استفاده از روش تخمین عدم‌قطعیت قابل‌یادگیری انجام دهد.

می توان در متخصصان متفاوت از توبعی به غیر از توزیع‌های گاوسی استفاده کرد. به عنوان مثال، می‌توان از توزیع لاپلاس، ^[۱۰] یا توزیع تی-استیودنت استفاده کرد. ^[۱۱] برای طبقه‌بندی باینری نیز، متخصص رگرسیون لجستیک توصیه شده است با

f_{i}(y|x)={\begin{cases}{\frac {1}{1+e^{\beta _{i}^{T}x+\beta _{i,0}}}},&y=0\\1-{\frac {1}{1+e^{\beta _{i}^{T}x+\beta _{i,0}}}},&y=1\end{cases}}

به طوری که

\beta _{i}

و

\beta _{i,0}

پارامترهای قابل یادگیری هستند. با تعمیم این فرمول می‌توان به طبقه‌بندی چندگروهی دست یافت، که با استفاده از متخصصان رگرسیون لجستیک چند جمله‌ای انجام می‌شود. ^[۱۲]

یادگیری عمیق ویرایش

در بخش قبلی MoE توصیف شد و باید توجه کرد که روش‌های بالا پیش از عصر یادگیری عمیق مورد استفاده قرار می گرفت. در دوره پیش از یادگیری عمیق، MoE کاربردهای دیگری از جمله، در پیاده‌سازی مدل‌های بسیار بزرگتر پیدا کرد. در این کاربرد از MoE به عنوان یک روش ساده برای انجام محاسبات شرطی بهره می‌بریم. یعنی به جای استفاده از کل مدل، فقط بخش‌هایی از مدل استفاده می‌شود، که متناسب با ورودی انتخاب می‌شوند. ^[۱۳]

اولین مقاله‌ای که MoE را برای یادگیری عمیق به کار می‌برد، «یادگیری بازنمایی‌های عامل‌دار در ترکیبی عمیق از متخصصان» (Eigen, Ranzato, Sutskever) ^[۱۴] است که پیشنهاد می‌کند از یک شبکه دروازه‌ای متفاوت در هر لایه در یک شبکه عصبی عمیق استفاده شود. به طوری که، هر دروازه یک شبکه بیشینه هموار-خطی-ReLU-خطی، و هر متخصص یک شبکه ReLU-خطی انتخاب شود.

هدف اصلی استفاده از MoE در یادگیری عمیق، کاهش هزینه محاسبات است. در نتیجه، برای هر پرس و جو، تنها یک زیرمجموعه کوچک از متخصصان باید پرس و جو شود. این باعث می شود که MoE در یادگیری عمیق با MoEکلاسیک متفاوت باشد. در MoE کلاسیک به ازای هر پرس و جو، خروجی مجموع وزنی خروجی‌های متخصصان است. ولی در MoE یادگیری عمیق، خروجی نهایی در هر پرس و جو می‌تواند تنها شامل خروجی‌های زیر مجموعه ای از کل متخصصان باشد. در نتیجه، انتخاب کلیدی طراحی در این MoE معطوف به به مسیریابی می‌شود:

مسیریابی و جهت‌دهی ورودی ها (پرس و جوها) به بهترین متخصصان چگونه انجام بپذیرد‌.

لایه MoE با دروازه پراکنده ویرایش

لایه MoE با پراکندگی دروازه‌، ^[۱۵] ^{[پاورقی ۳]} که توسط محققان گوگل برین منتشر شده است، از شبکه‌های پیش‌خور به‌ عنوان متخصص و از بیشینه هموار خطی به عنوان دروازه استفاده می‌کند. مشابه پیشنهادهای ارائه شده در بالا برای MoE سخت، به مظور دستیابی به هدف پراکندگی، آنها به جای استفاده از جمع وزنی همه متخصصان، از جمع وزنی k متخصص برتر استفاده می‌کنند. به بیان خاص‌تر، در یک لایه MoE، شبکه‌های پیشخور $f_{1},...,f_{n}$ و یک شبکه دروازه $w$ وجود دارد . شبکه دروازه توسط رابطه $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ تعریف می‌شود. $\mathrm {top} _{k}$ تابعی است که ورودی های به k واحد برتر را دست نخورده و یکسان نگه می‌دارد، ولی همه ورودی‌های دیگر را به $-\infty$ تغییر می‌دهد. باید بهایننکته اشاره کرد که اضافه شدن نویز به تعادل بار کمک می کند.

انتخاب $k$ یک فراپارامتر است که با توجه به کاربرد انتخاب می‌شود. $k=1,2$ مقادیر معمول و کاربردی هستند. با فرض $k=1$ ، این نسخه از شبکه، ترانسفورمر سوئیچی (به انگلیسی: Switch Transformer)نامیده می شود. ^[۱۶]

نویسندگان مقاله برای ارائه نتایج خود، با استفاده از لایه‌های متناوب MoE و LSTM، مجموعه‌ای از مدل‌ها را برای کاربرد به عنوان ترجمه ماشینی آموزش دادند و نتیجه را با مدل‌های عمیق LSTM مقایسه کردند. جدول 3 نشان می دهد که مدل های MoE علیرغم داشتن 30 برابر پارامترهای بیشتر، از زمان محاسبه استنتاج کمتری استفاده می کنند.

Vanilla MoE معمولاً مشکلاتی در تعادل بار دارد: با برخی از متخصصان اغلب مشورت می شود، در حالی که متخصصان دیگر به ندرت یا اصلاً مشورت نمی کنند. برای تشویق گیت به انتخاب هر متخصص با فرکانس برابر (تعادل بار مناسب) در هر دسته، هر لایه MoE دارای دو تابع تلفات کمکی است. این با ^[۱۶] به یک تابع تلفات کمکی بهبود یافته است. به طور خاص، اجازه دهید $n$ تعداد متخصصان باشد، سپس برای یک دسته معین از پرس و جوها $\{x_{1},x_{2},...,x_{T}\}$ ، ضرر کمکی برای دسته است

مسیریابی ویرایش

در MoE با دروازه‌های پراکنده، فقط از k متخصصان برتر پرس و جو می‌شود و خروجی‌های آن‌ها وزن‌دهی و به هم افزوده می‌شود. روش های دیگری نیز وجود دارد. ^[۱۷]

در Hash MoE، ^[۱۸] مسیریابی توسط یک تابع هش انجام می شود که قبل از شروع یادگیری تثبیت و بدون تغییر در نظر گرفته شده است. به عنوان مثال، اگر مدل یک ترانسفورماتور 4 لایه باشد و ورودی، نشانه‌ای (توکن) متناظر با کلمه "eat" باشد و هش "eat" $(1,4,2,3)$ باشد. آنگاه توکن به متخصص 1 در لایه 1، متخصص 4 در لایه 2، متخصص 2 در لایه و متخصص 3 در لایه 4 هدایت می شود. با وجود سادگی، این روش از لحاظ بازدهی در سطح MoE با دروازه پراکندگی با پارمتر $k=1$ است.

در MoE نرم، فرض کنید در هر دسته، هر متخصص می تواند تعداد $p$ پرس و جو را پردازش کند. در نتیجه $n\times p$ پرس و جو وجود دارد که می‌توان به هر دسته تخصیص داد. حال برای هر دسته از پرس و جوهای $\{x_{1},x_{2},...,x_{T}\}$ ، لایه MoE نرم، یک آرایه نوعی $w_{i,j,k}$ را محاسبه می کند، به طوری که $(w_{i,j,1},...,w_{i,j,T})$ توزیع احتمال بر روی پرس و جوها است، و پرس و جو $j$ -ام به متخصص $i$ -ام با رابطه $\sum _{k}w_{i,j,k}x_{k}$ محاسبه می‌شود.^[۱۹] با این حال، این روش با مدل‌سازی مدل خودهمبسته کار نمی‌کند، زیرا وزن‌ $w_{i,j,k}$ بغیر از خود توکن، به همه توکن‌های دیگر بستگی دارد. ^[۲۰]

روش‌های دیگر عبارتند از

حل مسئله با روش برنامه‌ریزی خطی مقید^[۲۱]
وادار کردن هر متخصص به انتخاب k پرس و جو برتر به انتخاب خودش (به جای اینکه هر پرس و جو k متخصص برتر را انتخاب کند)^[۲۲]
استفاده از یادگیری تقویتی برای آموزش الگوریتم مسیریابی (از آنجایی که انتخاب یک متخصص یک اقدام مجزا است، مانند RL). ^[۲۳]

فاکتور ظرفیت ویرایش

فرض کنید $n$ متخصص در یک لایه وجود دارند. برای یک دسته میعن از پرس و جوی $\{x_{1},x_{2},...,x_{T}\}$ ، هر پرس و جو به یک یا چند متخصص هدایت می شود. به عنوان مثال، اگر هر پرس و جو به یک متخصص مانند ترانسفوماتور سوئیچی هدایت شود، و اگر تقسیم بار بین متخصصان صورت گرفته باشد، هر متخصص باید به طور متوسط انتظار دریافت $T/n$ از دسته پرس و جوها را داشته باشد. در عمل، متصخصصان نمی‌توانند انتظار تعادل بار کامل را داشته باشند: در برخی از دسته پرس و جوها، یک متخصص ممکن است کم کار شود، در حالی که در دسته های دیگر، بیش از حد کار می کند.

تعادل بار از آن جهت اهمیت پیدا می‌کند به بدانیم ورودی‌‌ها به هر لایه نمی‌توانند از آن عبور کرده و به لایه بعدی بروند، تا زمانی که همه متخصص‌ها در همان لایه پرس و جوهایی را که به آنها منتسب شده را به پایان برساند. فاکتور ظرفیت به شکل یک محدودیت سخت در تعادل بار ایجاد شده است. فاکتور ظرفیت بدین معنی که: هر متخصص فقط مجاز به پردازش حداکثر تا $c\cdot T/n$ پرس و جوی دسته ای^[۱۷] را دارد. در مقاله عملاً مقدار $c\in [1.25,2]$ نتیجه خوبی به دست داد.

کاربرد در مدل های ترنسفورماتور ویرایش

لایه‌های MoE در بزرگترین مدل‌های ترنسفورماتور استفاده می‌شوند، زیرا که مراحل آموزش و استنباط مدل کامل بسیار پرهزینه است. آنها معمولاً دارای دروازه‌های پراکنده با پراکندگی 1 یا 2 هستند. در مدل‌های ترانسفورماتور، لایه‌های MoE اغلب برای انتخاب لایه‌های پیش‌خور (معمولاً یک شبکه-خطی-ReLU-خطی) استفاده می‌شوند. بدین صورت که پس از توجه چند سر در مسیر هر بلوک ترانسفورماتور ظاهر می‌شوند. به این که با بزرگتر شدن مدل‌ها، لایه‌های پیش‌خور بخش فزاینده‌ای از هزینه محاسبات را به خود اختصاص می‌دهند. به عنوان مثال در مدل Palm-540B حدود 90 درصد پارامترها در لایه های پیشخور آن قرار دارند. ^[۲۴]

تا تاریخ ۲۰۲۳^{[بروزرسانی]}، مدل‌هایی به اندازه کافی بزرگ که از MoE استفاده کنند، معمولا مدل‌های زبان بزرگ هستند که هر متخصص در آن حدود 10 میلیارد پارامتر دارد.

فارغ از مدل‌های زبانی، Vision MoE نیز یک مدل ترنسفورمر با لایه‌های MoE است. نویسندگان مقاله با آموزش یک مدل با 15 میلیارد پارامتر، کاربرد دیگر MoE را نشان دادند.

یک سری از مدل های زبان بزرگ گوگل از MoE استفاده می کردند. GShard^[۲۵] از MoE با حداکثر 2 متخصص در هر لایه استفاده می کند. بدین سان که، ابتدا متخصص برتر اول انتخاب می‌شود و متخصص برتر دوم با احتمالی متناسب با وزن محاسبه شده توسط تابع دروازه انتخاب می‌شود. پس از آن، مدل GLaM ^[۲۶] که یک مدل زبانی با 1.2 تریلیون پارامتر را رونمایی شد که هر در لایه MoE آن از 2 متخصص برتر (از بین 64 متخصص) استفاده می کرد. ترنسفورماتورهای سوئیچی^[۱۶] از 1 متخصص برتر در تمام لایه های MoE استفاده می کنند.

NLLB-200 از متا ای‌آی یک مدل ترجمه ماشینی است با پشتبانی از 200 زبان انسانی. ^[۲۷] هر لایه MoE از یک MoE سلسله مراتبی با دو سطح استفاده می کند. در سطح اول، تابع دروازه تصمیم می‌گیرد که از یک لایه پیشخور "به اشتراک گذاشته شده" استفاده کند یا متخصصان. اگر از متخصصان استفاده شود، یک تابع دروازه‌ای دیگر وزن‌ها را محاسبه می‌کند و 2 متخصص برتر را انتخاب می کند. ^[۲۸]

مدل‌های زبان بزرگ MoE را می‌توان با تنظیم دستورالعمل برای کارهای پایین دستی سازگار کرد. ^[۲۹]

در دسامبر 2023، شرکت میسترال ای‌آی مدل Mixtral 8x7B خود را تحت مجوز آپاچی 2.0 منتشر کرد. این یک مدل زبان MoE با 46.7B پارامتر، 8 متخصص، و پراکندگی دروازه 2 است. آنها همچنین نسخه ای را منتشر کردند که به منظور فرمان‌بری از دسورات تنظیم شده بود. ^[۳۰]^[۳۱]

در مارس 2024، شرکت دیتابریکس ^(en) مدل دیتابریکس ^(en) را منتشر کرد. این یک مدل زبان MoE با 132B پارامتر، 16 متخصص و پراکندگی دروازه 4 است. آنها همچنین نسخه ای را منتشر کردند که برای آموزش زیر تنظیم شده بود. ^[۳۲]^[۳۳]

در صورت نیاز به مطالعات بیشتر ویرایش

قبل از دوران یادگیری عمیق
- McLachlan, Geoffrey J.; Peel, David (2000). Finite mixture models. Wiley series in probability and statistics applied probability and statistics section. New York Chichester Weinheim Brisbane Singapore Toronto: John Wiley & Sons, Inc. ISBN 978-0-471-00626-8.
- Yuksel, S. E.; Wilson, J. N.; Gader, P. D. (August 2012). "Twenty Years of Mixture of Experts". IEEE Transactions on Neural Networks and Learning Systems. 23 (8): 1177–1193. doi:10.1109/TNNLS.2012.2200299. ISSN 2162-237X. PMID 24807516. S2CID 9922492.
- Masoudnia, Saeed; Ebrahimpour, Reza (12 May 2012). "Mixture of experts: a literature survey". Artificial Intelligence Review. 42 (2): 275–293. doi:10.1007/s10462-012-9338-y. S2CID 3185688.
- Nguyen, Hien D.; Chamroukhi, Faicel (July 2018). "Practical and theoretical aspects of mixture-of-experts modeling: An overview". WIREs Data Mining and Knowledge Discovery (به انگلیسی). 8 (4). doi:10.1002/widm.1246. ISSN 1942-4787. S2CID 49301452.
دوران یادگیری عمیق
- Zoph, Barret; Bello, Irwan; Kumar, Sameer; Du, Nan; Huang, Yanping; Dean, Jeff; Shazeer, Noam; Fedus, William (2022). "ST-MoE: Designing Stable and Transferable Sparse Expert Models". arXiv:2202.08906 [cs.CL].

مشاهدات بیشتر ویرایش

پاورقی‌ها ویرایش

↑ Meta-pi network
↑ linear-softmax function
↑ sparsely-gated MoE layer

منابع ویرایش

↑ Baldacchino, Tara; Cross, Elizabeth J.; Worden, Keith; Rowson, Jennifer (2016). "Variational Bayesian mixture of experts models and sensitivity analysis for nonlinear dynamical systems". Mechanical Systems and Signal Processing. 66–67: 178–200. Bibcode:2016MSSP...66..178B. doi:10.1016/j.ymssp.2015.05.009.
↑ Hampshire, J.B.; Waibel, A. (July 1992). "The Meta-Pi network: building distributed knowledge representations for robust multisource pattern recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 14 (7): 751–769. doi:10.1109/34.142911.
↑ Nowlan, Steven; Hinton, Geoffrey E (1990). "Evaluation of Adaptive Mixtures of Competing Experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 3.
↑ Jacobs, Robert A.; Jordan, Michael I.; Nowlan, Steven J.; Hinton, Geoffrey E. (February 1991). "Adaptive Mixtures of Local Experts". Neural Computation (به انگلیسی). 3 (1): 79–87. doi:10.1162/neco.1991.3.1.79. ISSN 0899-7667. PMID 31141872.
↑ ^۵٫۰ ^۵٫۱ Jordan, Michael; Jacobs, Robert (1991). "Hierarchies of adaptive experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 4. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:0» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ ^۶٫۰ ^۶٫۱ Jordan, Michael I.; Jacobs, Robert A. (March 1994). "Hierarchical Mixtures of Experts and the EM Algorithm". Neural Computation (به انگلیسی). 6 (2): 181–214. doi:10.1162/neco.1994.6.2.181. ISSN 0899-7667. {{cite journal}}: |hdl-access= requires |hdl= (help) خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:2» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ ^۷٫۰ ^۷٫۱ Jordan, Michael I.; Xu, Lei (1995-01-01). "Convergence results for the EM approach to mixtures of experts architectures". Neural Networks. 8 (9): 1409–1431. doi:10.1016/0893-6080(95)00014-3. ISSN 0893-6080. {{cite journal}}: |hdl-access= requires |hdl= (help) خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:3» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ Xu, Lei; Jordan, Michael; Hinton, Geoffrey E (1994). "An Alternative Model for Mixtures of Experts". Advances in Neural Information Processing Systems. MIT Press. 7.
↑ Collobert, Ronan; Bengio, Samy; Bengio, Yoshua (2001). "A Parallel Mixture of SVMs for Very Large Scale Problems". Advances in Neural Information Processing Systems. MIT Press. 14.
↑ Nguyen, Hien D.; McLachlan, Geoffrey J. (2016-01-01). "Laplace mixture of linear experts". Computational Statistics & Data Analysis. 93: 177–191. doi:10.1016/j.csda.2014.10.016. ISSN 0167-9473.
↑ Chamroukhi, F. (2016-07-01). "Robust mixture of experts modeling using the t distribution". Neural Networks. 79: 20–36. arXiv:1701.07429. doi:10.1016/j.neunet.2016.03.002. ISSN 0893-6080. PMID 27093693.
↑ Chen, K.; Xu, L.; Chi, H. (1999-11-01). "Improved learning algorithms for mixture of experts in multiclass classification". Neural Networks. 12 (9): 1229–1252. doi:10.1016/S0893-6080(99)00043-X. ISSN 0893-6080. PMID 12662629.
↑ Bengio. "Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation". arXiv:1308.3432.
↑ Eigen. "Learning Factored Representations in a Deep Mixture of Experts". arXiv:1312.4314.
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
↑ ^۱۶٫۰ ^۱۶٫۱ ^۱۶٫۲ Fedus, William; Zoph, Barret; Shazeer, Noam (2022-01-01). "Switch transformers: scaling to trillion parameter models with simple and efficient sparsity". The Journal of Machine Learning Research. 23 (1): 5232–5270. arXiv:2101.03961. ISSN 1532-4435. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:1» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ ^۱۷٫۰ ^۱۷٫۱ Zoph. "ST-MoE: Designing Stable and Transferable Sparse Expert Models". arXiv:2202.08906. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:4» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ Roller, Stephen; Sukhbaatar, Sainbayar; szlam, arthur; Weston, Jason (2021). "Hash Layers For Large Sparse Models". Advances in Neural Information Processing Systems. Curran Associates. 34: 17555–17566. arXiv:2106.04426.
↑ Puigcerver. "From Sparse to Soft Mixtures of Experts". arXiv:2308.00951.
↑ Wang, Phil (2023-10-04), lucidrains/soft-moe-pytorch, retrieved 2023-10-08
↑ Lewis, Mike; Bhosale, Shruti; Dettmers, Tim; Goyal, Naman; Zettlemoyer, Luke (2021-07-01). "BASE Layers: Simplifying Training of Large, Sparse Models". Proceedings of the 38th International Conference on Machine Learning (به انگلیسی). PMLR: 6265–6274. arXiv:2103.16716.
↑ Zhou, Yanqi; Lei, Tao; Liu, Hanxiao; Du, Nan; Huang, Yanping; Zhao, Vincent; Dai, Andrew M.; Chen, Zhifeng; Le, Quoc V. (2022-12-06). "Mixture-of-Experts with Expert Choice Routing". Advances in Neural Information Processing Systems (به انگلیسی). 35: 7103–7114. arXiv:2202.09368.
↑ Bengio. "Conditional Computation in Neural Networks for faster models". arXiv:1511.06297.
↑ "Transformer Deep Dive: Parameter Counting". Transformer Deep Dive: Parameter Counting (به انگلیسی). Retrieved 2023-10-10.
↑ Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668.
↑ Du. "GLaM: Efficient Scaling of Language Models with Mixture-of-Experts". arXiv:2112.06905.
↑ "200 languages within a single AI model: A breakthrough in high-quality machine translation". ai.facebook.com (به انگلیسی). 2022-06-19. Archived from the original on 2023-01-09.
↑ NLLB Team. "No Language Left Behind: Scaling Human-Centered Machine Translation". {{cite arxiv}}: |arxiv= required (help)
↑ Shen. "Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models". arXiv:2305.14705.
↑ AI, Mistral (2023-12-11). "Mixtral of experts". mistral.ai (به انگلیسی). Retrieved 2024-02-04.
↑ Jiang, Albert Q.; Sablayrolles, Alexandre; Roux, Antoine; Mensch, Arthur; Savary, Blanche; Bamford, Chris; Chaplot, Devendra Singh; Casas, Diego de las; Hanna, Emma Bou (2024-01-08), Mixtral of Experts, arXiv:2401.04088, retrieved 2024-02-04
↑ "Introducing DBRX: A New State-of-the-Art Open LLM". Databricks (به انگلیسی). 2024-03-27. Retrieved 2024-03-28.
↑ Knight, Will. "Inside the Creation of the World's Most Powerful Open Source AI Model". Wired (به انگلیسی). ISSN 1059-1028. Retrieved 2024-03-28.

[:0-2] Meta-pi network

[:1-6] r-softmax function

[:2-18] sparsely-gated MoE layer

[1] Baldacchino, Tara; Cross, Elizabeth J.; Worden, Keith; Rowson, Jennifer (2016). "Variational Bayesian mixture of experts models and sensitivity analysis for nonlinear dynamical systems". Mechanical Systems and Signal Processing. 66–67: 178–200. Bibcode:2016MSSP...66..178B. doi:10.1016/j.ymssp.2015.05.009.

[3] Hampshire, J.B.; Waibel, A. (July 1992). "The Meta-Pi network: building distributed knowledge representations for robust multisource pattern recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 14 (7): 751–769. doi:10.1109/34.142911.

[4] Nowlan, Steven; Hinton, Geoffrey E (1990). "Evaluation of Adaptive Mixtures of Competing Experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 3.

[5] Jacobs, Robert A.; Jordan, Michael I.; Nowlan, Steven J.; Hinton, Geoffrey E. (February 1991). "Adaptive Mixtures of Local Experts". Neural Computation (به انگلیسی). 3 (1): 79–87. doi:10.1162/neco.1991.3.1.79. ISSN 0899-7667. PMID 31141872.

[:0-7] ۵٫۰ ^۵٫۱ Jordan, Michael; Jacobs, Robert (1991). "Hierarchies of adaptive experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 4. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:0» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[:2-8] ۶٫۰ ^۶٫۱ Jordan, Michael I.; Jacobs, Robert A. (March 1994). "Hierarchical Mixtures of Experts and the EM Algorithm". Neural Computation (به انگلیسی). 6 (2): 181–214. doi:10.1162/neco.1994.6.2.181. ISSN 0899-7667. {{cite journal}}: |hdl-access= requires |hdl= (help) خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:2» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[:3-9] ۷٫۰ ^۷٫۱ Jordan, Michael I.; Xu, Lei (1995-01-01). "Convergence results for the EM approach to mixtures of experts architectures". Neural Networks. 8 (9): 1409–1431. doi:10.1016/0893-6080(95)00014-3. ISSN 0893-6080. {{cite journal}}: |hdl-access= requires |hdl= (help) خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:3» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[10] Xu, Lei; Jordan, Michael; Hinton, Geoffrey E (1994). "An Alternative Model for Mixtures of Experts". Advances in Neural Information Processing Systems. MIT Press. 7.

[11] Collobert, Ronan; Bengio, Samy; Bengio, Yoshua (2001). "A Parallel Mixture of SVMs for Very Large Scale Problems". Advances in Neural Information Processing Systems. MIT Press. 14.

[12] Nguyen, Hien D.; McLachlan, Geoffrey J. (2016-01-01). "Laplace mixture of linear experts". Computational Statistics & Data Analysis. 93: 177–191. doi:10.1016/j.csda.2014.10.016. ISSN 0167-9473.

[13] Chamroukhi, F. (2016-07-01). "Robust mixture of experts modeling using the t distribution". Neural Networks. 79: 20–36. arXiv:1701.07429. doi:10.1016/j.neunet.2016.03.002. ISSN 0893-6080. PMID 27093693.

[14] Chen, K.; Xu, L.; Chi, H. (1999-11-01). "Improved learning algorithms for mixture of experts in multiclass classification". Neural Networks. 12 (9): 1229–1252. doi:10.1016/S0893-6080(99)00043-X. ISSN 0893-6080. PMID 12662629.

[15] Bengio. "Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation". arXiv:1308.3432.

[16] Eigen. "Learning Factored Representations in a Deep Mixture of Experts". arXiv:1312.4314.

[17] A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[:1-19] ۱۶٫۰ ^۱۶٫۱ ^۱۶٫۲ Fedus, William; Zoph, Barret; Shazeer, Noam (2022-01-01). "Switch transformers: scaling to trillion parameter models with simple and efficient sparsity". The Journal of Machine Learning Research. 23 (1): 5232–5270. arXiv:2101.03961. ISSN 1532-4435. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:1» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[:4-20] ۱۷٫۰ ^۱۷٫۱ Zoph. "ST-MoE: Designing Stable and Transferable Sparse Expert Models". arXiv:2202.08906. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:4» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[21] Roller, Stephen; Sukhbaatar, Sainbayar; szlam, arthur; Weston, Jason (2021). "Hash Layers For Large Sparse Models". Advances in Neural Information Processing Systems. Curran Associates. 34: 17555–17566. arXiv:2106.04426.

[22] Puigcerver. "From Sparse to Soft Mixtures of Experts". arXiv:2308.00951.

[23] Wang, Phil (2023-10-04), lucidrains/soft-moe-pytorch, retrieved 2023-10-08

[24] Lewis, Mike; Bhosale, Shruti; Dettmers, Tim; Goyal, Naman; Zettlemoyer, Luke (2021-07-01). "BASE Layers: Simplifying Training of Large, Sparse Models". Proceedings of the 38th International Conference on Machine Learning (به انگلیسی). PMLR: 6265–6274. arXiv:2103.16716.

[25] Zhou, Yanqi; Lei, Tao; Liu, Hanxiao; Du, Nan; Huang, Yanping; Zhao, Vincent; Dai, Andrew M.; Chen, Zhifeng; Le, Quoc V. (2022-12-06). "Mixture-of-Experts with Expert Choice Routing". Advances in Neural Information Processing Systems (به انگلیسی). 35: 7103–7114. arXiv:2202.09368.

[26] Bengio. "Conditional Computation in Neural Networks for faster models". arXiv:1511.06297.

[27] "Transformer Deep Dive: Parameter Counting". Transformer Deep Dive: Parameter Counting (به انگلیسی). Retrieved 2023-10-10.

[28] Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668.

[29] Du. "GLaM: Efficient Scaling of Language Models with Mixture-of-Experts". arXiv:2112.06905.

[30] "200 languages within a single AI model: A breakthrough in high-quality machine translation". ai.facebook.com (به انگلیسی). 2022-06-19. Archived from the original on 2023-01-09.

[31] NLLB Team. "No Language Left Behind: Scaling Human-Centered Machine Translation". {{cite arxiv}}: |arxiv= required (help)

[32] Shen. "Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models". arXiv:2305.14705.

[33] AI, Mistral (2023-12-11). "Mixtral of experts". mistral.ai (به انگلیسی). Retrieved 2024-02-04.

[34] Jiang, Albert Q.; Sablayrolles, Alexandre; Roux, Antoine; Mensch, Arthur; Savary, Blanche; Bamford, Chris; Chaplot, Devendra Singh; Casas, Diego de las; Hanna, Emma Bou (2024-01-08), Mixtral of Experts, arXiv:2401.04088, retrieved 2024-02-04

[:02-35] "Introducing DBRX: A New State-of-the-Art Open LLM". Databricks (به انگلیسی). 2024-03-27. Retrieved 2024-03-28.

[36] Knight, Will. "Inside the Creation of the World's Most Powerful Open Source AI Model". Wired (به انگلیسی). ISSN 1059-1028. Retrieved 2024-03-28.

[۱]

[پاورقی ۱]

[۲]

[۳]

[۴]

[پاورقی ۲]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[پاورقی ۳]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

[۲۳]

[۲۴]

[۲۵]

[۲۶]

[۲۷]

[۲۸]

[۲۹]

[۳۰]

[۳۱]

[۳۲]

[۳۳]