آموزش، اعتبارسنجی و مجموعه‌های آزمایشی

در بحث یادگیری ماشین، مطالعه و ساخت الگوریتم‌هایی که می‌تواند بر اساس مجموعه داده، یادگیری و پیشگیری کند، مرسوم است.[۱] این الگوریتم‌ها از طریق پیش‌بینی یا تصمیم‌گیری مبتنی بر داده، از طریق ساختن یک مدل ریاضی بر اساس داده‌های ورودی عمل می‌کنند.

داده‌های مورد استفاده برای ساخت مدل نهایی معمولاً از مجموعه داده‌های متعدد تهیه می‌شود. به‌طور خاص، معمولاً از سه مجموعه داده در مراحل مختلف ایجاد مدل، استفاده می‌شود.

این مدل در ابتدا بر روی یک مجموعه داده آموزشی ساخته می‌شود، تا یا استفاده از مجموعه ای از مثالها، توانایی متناسب کردن پارامترهای مدل فراهم شود. (به عنوان مثال وزن اتصالات بین سلولهای عصبی در شبکه‌های عصبی مصنوعی) این مدل (به عنوان مثال یک شبکه عصبی) با استفاده از یک روش یادگیری نظارت شده، مانند روش‌های بهینه‌سازی همچون نزول گرادیان یا نزول شیب تصادفی، روی مجموعه داده‌های آموزشی، آموزش داده می‌شود. در عمل، مجموعه داده‌های آموزشی اغلب متشکل از جفت‌های یک بردار ورودی (یا اسکالر) و بردار خروجی مربوطه (یا اسکالر) است، جایی که کلید پاسخ معمولاً به عنوان متغیر هدف (یا برچسب) نشان داده می‌شود. مدل فعلی از روی مجموعه داده‌های آموزشی ساخته می‌شود و برای هر بردار ورودی در مجموعه داده‌های آموزشی، نتیجه ای حاصل می‌شود که سپس با هدف مقایسه می‌شود. پارامترهای مدل، بر اساس نتیجه مقایسه و الگوریتم یادگیری خاص مورد استفاده، تنظیم می‌شوند. نتیجه به دست آمده مدل می‌تواند شامل انتخاب متغیر و برآورد پارامتر باشد.

به‌طور پیوسته، از مدل ساخته شده بر اساس مجموعه داده، برای پیش‌بینی نتایج مشاهدات در یک مجموعه داده دوم به نام مجموعه داده اعتبار سنجی استفاده می‌شود. مجموعه داده‌های اعتبارسنجی، ارزیابی بی طرفانه ای از مدل ساخته شده متناسب که بر روی مجموعه داده‌های آموزشی، در زمان تنظیم مدل ابرپارامترها ارایه می‌دهد.[۲] (به عنوان مثال تعداد واحدهای پنهان در یک شبکه عصبی). مجموعه داده‌های اعتبار سنجی را می‌توان برای منظم سازی با توقف زودهنگام استفاده کرد. (متوقف کردن آموزش هنگامی که خطای مجموعه داده اعتبار سنجی افزایش می‌یابد، استفاده می‌شود، زیرا این نشانه بیش برازش است). این مراحل در عمل با پیچیدگی‌هایی مواجه است که ناشی از نوسان میزان خطا در مجموعه اعتبار سنجی است. این پیچیدگی موجب به وجود آمدن قوانینی مبتنی بر هدف است که این قوانینی می‌تواند تصمیم بگیرد آیا بیش برازش اتفاق افتاده‌است یا خیر.

سرانجام، مجموعه داده آزمایشی مجموعه داده‌ای است که برای ارائه ارزیابی بی طرفانه از مدل نهایی متناسب با مجموعه داده‌های آموزشی استفاده می‌شود.[۲] اگر داده‌های مجموعه داده‌های آزمایشی هرگز در آموزش استفاده نشده باشد، (به عنوان مثال در اعتبارسنجی متقابل)، مجموعه داده‌های آزمون نیز مجموعه داده‌های نگهداری نامیده می شود.

مجموعه داده‌های آموزشی ویرایش

یک م مجموعه داده آموزشی، مجموعه ای از نمونه‌ها است که در طول فرایند یادگیری استفاده می‌شود و برای ساخت مدل‌های پیشگو استفاده می‌شود. به عنوان مثال برای یک الگوریتم طبقه‌بندی کننده استفاده می‌شود.[۳][۴]

بیشتر رویکردهایی که از طریق داده‌های آموزشی برای روابط علمی جستجو می‌شوند، منجر به بیش برازش می‌شوند، به این معنی که آنها می‌توانند روابط آشکار را در داده‌های آموزشی که به‌طور کلی نگهداری نمی‌شوند، شناسایی و بهره‌برداری کنند.

مجموعه داده‌های اعتبار سنجی ویرایش

مجموعه داده اعتبارسنجی، مجموعه داده ای از مثال‌ها است که برای تنظیم ابرپارامترها (hyperparameters یعنی معماری) یک الگوریتم طبقه‌بندی کننده استفاده می‌شود. گاهی اوقات به آن مجموعه توسعه یا "dev set" نیز گفته می‌شود. نمونه ای از ابرپارامتر برای شبکه‌های عصبی مصنوعی شامل تعداد واحدهای پنهان در هر لایه است.[۳][۴] این مجموعه، و همچنین مجموعه تست، باید از توزیع احتمال مشابه مجموعه داده آموزش پیروی کند.

برای جلوگیری از بیش برازش، در صورت نیاز به تنظیم هر پارامتر طبقه‌بندی کننده، لازم است علاوه بر مجموعه داده‌های آموزش و مجموعه داده‌های آزمون، یک مجموعه داده اعتبار سنجی نیز داشته باشید. به عنوان مثال، اگر مناسب‌ترین طبقه‌بندی کننده مسئله را جستجو کنیم، از مجموعه داده‌های آموزشی برای آموزش الگوریتم‌های نامزد استفاده می‌شود، از مجموعه داده‌های اعتبار سنجی برای مقایسه عملکرد آنها و تصمیم‌گیری در مورد انتخاب یکی از آنها استفاده می‌شود و در نهایت، از مجموعه داده‌های آزمایشی برای به دست آوردن ویژگی‌های عملکردی مانند دقت، حساسیت، ویژگی، اندازه‌گیری F و غیره استفاده می‌شود. مجموعه داده اعتبارسنجی به صورت ترکیبی عمل می‌کند: این داده‌های آموزشی است که برای آزمایش استفاده می‌شود، اما نه به عنوان بخشی از آموزش سطح پایین و نه به عنوان بخشی از آزمایش نهایی.

فرایند اساسی استفاده از یک مجموعه داده‌های اعتبار سنجی برای انتخاب مدل: (به عنوان بخشی از مجموعه داده‌های آموزشی، مجموعه داده‌های اعتبار سنجی و مجموعه داده‌های آزمون)[۴][۵]

استفاده و کاربرد این فرایند در توقف زودهنگام است، جایی که مدل‌های کاندیدا تکرارهای پی در پی یک شبکه هستند و با بزرگ شدن خطای مجموعه اعتبار سنجی، با انتخاب مدل قبلی (مدل با حداقل خطا)، آموزش متوقف می‌شود.

مجموعه داده آزمایش ویرایش

مجموعه داده ای است که مستقل از مجموعه آموزش است، اما از توزیع احتمال مشابه مجموعه داده آموزش پیروی می‌کند. اگر مدل ساخته شده بر اساس داده‌های آموزشی عملکرد خوبی بر داده‌های آزمایشی نیز داشته باشد، میزان بیش برازش به حداقل می رشد. برازش بهتر مجموعه داده آموزش بر خلاف مجموعه داده آزمون معمولاً به بیش برازش اشاره دارد.

بنابراین یک مجموعه آزمون مجموعه ای از مثالها است که فقط برای ارزیابی عملکرد (به عنوان مثال تعمیم) یک طبقه‌بندی کننده کاملاً مشخص استفاده می‌شود.[۳][۴]

 
یک مجموعه آموزش (چپ) و یک مجموعه آزمون (راست) از همان جامعه آماری به عنوان نقاط آبی نشان داده شده‌است. دو مدل پیشگو بر اساس داده‌های آموزشی ساخته شده‌اند و هر دو با مجموعه آموزشی و آزمایشی نمایش داده شده‌اند. در مجموعه آموزش، MSE تناسب نشان داده شده با نارنجی ۴ است در حالی که MSE برای تناسب نشان داده شده با رنگ سبز ۹ است. در مجموعه آزمون، MSE برای تناسب نشان داده شده با نارنجی ۱۵ و MSE برای تناسب نشان داده شده با رنگ سبز ۱۳ است. منحنی نارنجی یک مدل با بیش برازش ساخته‌است زیرا MSE آن هنگام مقایسه مجموعه آزمایش با مجموعه آموزش تقریباً یک عامل چهار افزایش می‌یابد. میزان بیش برازش در منحنی سبز کمتر است، زیرا MSE آن کمتر از عامل ۲ افزایش می‌یابد.

مجموعه داده Holdout ویرایش

بخشی از مجموعه داده اصلی را می‌توان کنار گذاشت و به عنوان مجموعه آزمایشی استفاده کرد: این روش را Holdout می‌نامند.[۶]

سردرگمی در اصطلاحات ویرایش

مجموعه اصطلاحات آزمون و مجموعه اعتبارسنجی، گاهی اوقات به گونه ای به کار می‌روند که معنای آنها هم در صنعت و هم در محیط‌های آموزشی به صورت اشتباه به کار می‌روند. در کاربرد اشتباه، «مجموعه آزمون» به «مجموعه توسعه» تبدیل می‌شود و «مجموعه اعتبار سنجی» مجموعه مستقلی است که برای ارزیابی عملکرد یک طبقه‌بندی کننده کاملاً مشخص استفاده می‌شود.

ادبیات مربوط به یادگیری ماشین اغلب معنای مجموعه‌های «اعتبار سنجی» و «آزمون» را برعکس می‌کند. این نمونه آشکارترین آشفتگی اصطلاحی است که در تحقیقات هوش مصنوعی وجود دارد.

اعتبار سنجی متقابل ویرایش

یک مجموعه داده را می‌توان به‌طور مکرر به یک مجموعه داده آموزشی و یک مجموعه داده اعتبار سنجی تقسیم کرد: این به اعتبارسنجی متقابل معروف است. این تقسیم‌بندی‌های مکرر را می‌توان به روش‌های مختلف انجام داد، مانند تقسیم به ۲ کردن یک مجموعه داده و استفاده از آنها به عنوان آموزش و اعتبار سنجی، و بعد از آن اعتبار سنجی و آموزش، یا انتخاب مکرر یک زیر مجموعه تصادفی به عنوان مجموعه داده اعتبار سنجی.[نیازمند منبع] برای تأیید عملکرد مدل، گاهی اوقات از یک مجموعه داده آزمون اضافی که از اعتبار سنجی Holdout استفاده می‌شود.[نیازمند منبع]

طبقه‌بندی سلسله مراتبی ویرایش

مثال دیگر از تنظیم پارامترها طبقه‌بندی سلسله مراتبی است (که بعضاً به عنوان تجزیه فضای نمونه[۷] نامیده می‌شود)، که یک مسئله کامل چند کلاسه با چندین متغیر هدف را به مجموعه ای از مشکلات طبقه‌بندی کوچکتر تقسیم می‌کند. در این روش طبقه‌بندی استفاده از الگوریتم‌های طبقه‌بندی کننده و مرزهای طبقه‌بندی ساده‌تر و همچنین انتخاب ویژگی‌ها سبب شده‌است تا عملکردی با دقت بالا ارایه شود.. هنگام انجام تجزیه طبقه‌بندی، انتخاب اصلی ترتیب ترکیب مراحل طبقه‌بندی کوچکتر است که مسیر طبقه‌بندی نامیده می‌شود. بسته به نوع کاربرد، می‌توان آن را از ماتریس سردرگمی استخراج کرد و با کشف دلایل خطاهای معمول و یافتن راه‌هایی برای جلوگیری از ایجاد سیستم در آینده این موارد را ایجاد کرد. به عنوان مثال،[۸] در مجموعه اعتبار سنجی، می‌توان فهمید که کدام کلاسها به‌طور اشتباه تشخیص داده شده‌اند و سپس تجزیه فضای نمونه به صورت زیر انجام می‌شود: کلاسها به عنوان یک کلاس مشترک واحد در نظر گرفته می‌شوند و سرانجام، به عنوان مرحله دوم طبقه‌بندی، کلاس مشترک در دو کلاس که در ابتدا اشتباه تشخیص داده شده‌اند، طبقه‌بندی می‌شود.[نیازمند منبع]

جستارهای وابسته ویرایش

منابع ویرایش

  1. Ron Kohavi; Foster Provost (1998). "Glossary of terms". Machine Learning. 30: 271–274. doi:10.1023/A:1007411609915.
  2. ۲٫۰ ۲٫۱ Brownlee, Jason (2017-07-13). "What is the Difference Between Test and Validation Datasets?". Retrieved 12 October 2017.
  3. ۳٫۰ ۳٫۱ ۳٫۲ Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press, p. 354
  4. ۴٫۰ ۴٫۱ ۴٫۲ ۴٫۳ "Subject: What are the population, sample, training set, design set, validation set, and test set?", Neural Network FAQ, part 1 of 7: Introduction (txt), comp.ai.neural-nets, Sarle, W.S. , ed. (1997, last modified 2002-05-17)
  5. Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford: Oxford University Press, p. 372
  6. Kohavi, Ron (2001-03-03). "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection". 14. {{cite journal}}: Cite journal requires |journal= (help)
  7. Cohen, S.; Rokach, L.; Maimon, O. (2007). "Decision-tree instance-space decomposition with grouped gain-ratio". Information Sciences. Elsevier. 177 (17): 3592–3612. doi:10.1016/j.ins.2007.01.016.
  8. Sidorova, J. , Badia, T. "ESEDA: tool for enhanced speech emotion detection and analysis". The 4th International Conference on Automated Solutions for Cross Media Content and Multi-Channel Distribution (AXMEDIS 2008). Florence, November, 17-19, pp. 257–260. IEEE press.

پیوند به بیرون ویرایش