اجبار تدریس (یادگیری ماشین)

اجبار تدریس در یادگیری ماشین الگوریتمی است که برای آموزش وزن‌های شبکه عصبی بازگشتی به کار گرفته می‌شود.^[۱] در این روش بعد از هر گام، مقادیر متوالی مشاهده شده (به عنوان مثال مقادیر حقیقی نمونه‌ها) به شبکه عصبی بازگشتی به جای نتایج قبلی لایه‌های قبلی شبکه داده می‌شود. این کار باعث می‌شود که از انباشت خطاهای متوالی در شبکه مدنظر جلوگیری شود و نتایج شبکه عصبی بازگشتی، به نمونه‌های مشاهده شده در هر گام نزدیک بماند و در این مسیر وزن‌ها به درستی بروزرسانی شوند.^[۲]

تاریخچه ویرایش

عبارت «اجبار تدریس» از قیاس اتفاقات درون شبکه عصبی با یک دانش‌آموزی که می‌خواهد یک امتحان چند بخشه بدهد آمده‌است، به طوری که جواب هر بخش وابسته به جواب بخش قبلی است. در این روش، به جای نمره دادن در آخر به تمامی بخش‌ها، برای هر بخش جداگانه نمره داده شده و دانش‌آموز با استفاده از جواب‌های درست، به حل کردن بخش‌های بعدی می‌پردازد.^[۳] این روش اولین بار در سال ۱۹۸۹ توسط رونالد ویلیامز و دیوید زیپسر بیان شد.

کاربرد کلی ویرایش

این روش به صورت کلی باعث می‌شود مدل تعریف شده برای انجام یک کار از پیش تعیین شده، سریع‌تر روی داده‌های آموزش یاد بگیرد و به سمت جواب بهتری همگرا شود. اما اینکار ممکن است باعث عملکرد غیر بهینه مدل بشود زیرا که در هر مرحله در معرض اشتباهات مراحل قبل قرار نگرفته و نتیجه نادرستی را گزارش دهد.

از موارد دیگری که می‌توان دربارهٔ کاربرد روش اجبار تدریس در موضوعات مختلف اشاره کرد:

یک شبکه عصبی بازگشتی که در آن در هر مرحله از نمونه‌های حقیقی به جای مقادیر پیش‌بینی شده لایه‌های قبلی برای درج اطلاعات جدید استفاده می‌کنیم.

باعث افزایش دقت و سرعت یادگیری مدل می‌شود. به طوری که در هر مرحله گام‌هایی با ثبات و دقت بیشتر به سمت جواب برداشته شده و باعث همگرایی سریع‌تر به یک جواب خاص شود.
کاربرد بسیار وسیعی در شبکه عصبی بازگشتی داشته و در انجام کارهایی همانند ترجمه زبان، هماهنگی بین تبدیل متن به گفتار و شناسایی و تشخیص کلمات بسیار مفید واقع می‌شود.^[۳]
می‌توان از رویکرد ترکیبی آن استفاده کرد به طوری که در گام‌های اولیه، روش اجبار تدریس جواب‌های درست را در هر قدم برگردانده و هرچه مراحل بیشتر طی می‌شود، اثرگذاری اجبار تدریس به تدریج کمتر و کمتر شده تا حدی که در آموزش مدل، خطاهای مراحل قبلی لحاظ شود.

مشکلی که ممکن است این روش دلیل ایجاد آن شود، مشکل بیش‌برازش است؛ زیرا که مدل فقط براساس نمونه‌های حقیقی آموزش میابد و بر روی داده‌های آموزش به خوبی منطبق شده و حالت کلی برای پیش‌بینی کردن را از دست بدهد.^[۴]

در نهایت این روش می‌بایست با دقت و مراقبت لازم استفاده گردد تا منجر به بیش‌برازش نشده و کارایی بهینه‌تر در مدل مدنظر محقق شود.