بیش‌برازش

بیش‌برازش (به انگلیسی: Overfitting)^[۱] به پدیدهٔ نامطلوبی در آمار گفته می‌شود که در آن درجه آزادی مدل بسیار بیشتر از درجه آزادی واقعی انتخاب شده و در نتیجه اگرچه مدل روی داده استفاده شده برای یادگیری بسیار خوب نتیجه می‌دهد، اما بر روی داده جدید دارای خطای زیاد است. انتخاب درجه آزادی مناسب به کمک وارسی اعتبار (Cross-validation) و تنظیم‌کردن (Regularization) از راه‌های مقابله با این پدیده‌است.^[۲]

احتمال بیش برازش به این دلیل وجود دارد که معیار برازش مدل با معیاری که برای ارزیابی آن به کار می‌رود یکسان نیست. به این مفهوم که معمولاً برای برازش مدل کارایی آن بر روی یک مجموعه نمونه‌های برازش بیشینه می‌شود. در صورتی که برای سنجش مؤثر بودن مدل نه تنها کارایی آن بر روی نمونه‌های برازش را می سنجند بلکه توانایی مدل بر روی نمونه‌هایی دیده نشده نیز در نظر گرفته می‌شود. بیش برازش زمانی اتفاق می افتد که مدل در هنگام برازش به جای "یادگیری" داده‌ها شروع به "حفظ کردن" آن‌ها می‌کند.

برای مثال در تحلیل رگرسیون هنگامی که تعداد درجه مدل از تعداد داده‌های که سعی در یادگیری آن داریم بیشتر باشد معمولا بیش‌برازش اتفاق می‌افتد.

در یادگیری ماشین ویرایش

در یادگیری ماشین معمولا مدل روی دادگان آموزش٬ آموزش می‌بیند و هدف این است که بتواند روی دادگان آزمایشی عملکرد خوبی داشته باشیم. پدیده‌ی بیش‌برازش باعث می‌شود روی دادگان آموزش عملکرد بسیار خوبی داشته باشد اما روی دادگان اعتبارسنجی و آزمایش عملکرد بسیار بدی داشته باشد. هنگامی که تعداد دادگان آموزش کم است و یا درجه آزادی مدل زیاد است احتمال این پدیده بیشتر می‌شود.

به عنوان یک مثال ساده یک دادگان از یک وبسایت سفارش آنلاین را در نظر بگیرید. این دادگان شامل نوع کالای خریده شده٬ ساعت خرید کالا و مشخصات کاربر است و هدف مدل پیش‌بینی کالا‌ی خریداری شده توسط یک کاربر است. یک مدل ممکن است با حفظ کردن ساعت خرید کالا و نوع‌ آن بتواند روی دادگان آموزش دقت بالایی کسب کند. در صورتی که این مدل نمی‌تواند عملکرد خوبی روی داده‌ای بیرون از دادگان آمورش داده باشد زیرا هیچ یادگیری‌ای روی مشخصات کاربر نداشته‌است و ساعت خرید و نوع کالا ویژگی‌های مناسبی برای این دادگان نیستند.

مثال تحلیل رگرسیون ویرایش

با بالا بردن درجه‌ی مدل می‌توان قدرت مدل را رگرسیون را بیشتر کرد. به‌راحتی می‌توان در تصویر زیر بیش‌برازش را دید. خط قرمز یک چندجمله درجه ۵ و خط سیاه یک چندجمله از درجه ۱ یک است. مدل چندجمله درجه ۵ روی دادگان دچار پدیده‌ی بیش‌برازش شده است. یک روش درست کردن این مشکل استفاده از تکنیک تنظیم‌کردن (Regularization) است.

بیش‌برازش در تحلیل رگرسیون: نمودار سیاه خطی و نمودار آبی چند‌جمله‌ای از درجه‌‌ی بالاتر است.

مثال شبکه های عصبی ویرایش

در شبکه‌های عصبی عمیق معمولا هنگامی که شبکه مدت زیادی آموزش می‌بینید دچار بیش‌برازش می‌شود. یک روش برای حل این مشکل روش‌هایی مانند توقف زودهنگام (Early stopping) ٬ تنظیم کردن (Regularization) یا حذف تصادفی (dropout) است. یک روش دیگر این است که عمق یا پیچیدگی شبکه را کم‌تر کنیم تا قدرت کم‌تری داشته باشد.

مثال توقف زودهنگام: نمودار قرمز خطا روی دادگان اعتبار‌سنجی و نمودار ابی خطا روی دادگان آموزش است. هنگامی که دقت روی دادگان اعتبارسنجی کاهش می‌یابد فرایند آموزش را متوقف می‌کنیم تا از بیش‌برازش جلوگیری کنیم.

جستارهای وابسته ویرایش

منابع ویرایش

↑ معادل فارسی برگرفته از «استفاده از رگرسیون منطقی برای شناسایی اثرات متقابل برخی از پلی‌مورفیسم‌های ژنی و سایر عوامل خطر بر سطح پایین HDL: مطالعهٔ قند و لیپید تهران». غدد درون‌ریز و متابولیسم ایران. پژوهشکده غدد درون‌ریز و متابولیسم. ۱۴ (۴): ۳۵۲-۳۵۹. ۲۰۱۲.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۱۹.

[1] معادل فارسی برگرفته از «استفاده از رگرسیون منطقی برای شناسایی اثرات متقابل برخی از پلی‌مورفیسم‌های ژنی و سایر عوامل خطر بر سطح پایین HDL: مطالعهٔ قند و لیپید تهران». غدد درون‌ریز و متابولیسم ایران. پژوهشکده غدد درون‌ریز و متابولیسم. ۱۴ (۴): ۳۵۲-۳۵۹. ۲۰۱۲.

[2] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۱۹.

[۱]

[۲]