کمی‌سازی (یادگیری ماشین)

در یادگیری ماشین و تحلیل داده، کمی سازی (به‌طور مختلف یادگیری برای کمیت یا برآورد شیوع نظارت یا تخمین قبلی کلاس نامیده می‌شود) وظیفهٔ استفاده از یادگیری تحت نظارت برای آموزش مدلهایی (کمی سازها) است که فرکانس‌های نسبی (همچنین به عنوان شیوع نیز شناخته می‌شود) کلاسهای مورد علاقه را در نمونه از موارد داده‌های نامشخص تخمین می‌زند.[۱] به عنوان مثال، در نمونه ای از ۱۰۰٬۰۰۰ توییت بدون برچسب که برای بیان نظرات در مورد یک نامزد سیاسی خاص شناخته شده‌است، ممکن است از یک اندازه‌گیری برای تخمین درصد این ۱۰۰۰۰۰ توییت که متعلق به کلاس 'مثبت است' استفاده شود (‏یعنی، که یک موضع مثبت نسبت به این کاندید نشان می‌دهد)‏، و برای کلاس‌های «خنثی» و «منفی» نیز همین کار را انجام دهد.

کمی‌سازی ممکن است به عنوان وظیفه پیش‌بینی‌کننده‌های آموزشی در نظر گرفته شود که توزیع احتمال (گسسته) را تخمین می‌زنند، برای مثال، یک توزیع پیش‌بینی‌شده تولید می‌کند که توزیع واقعی ناشناخته آیتم‌ها را در سراسر کلاس‌های مورد نظر تقریب می‌زند. کمی‌سازی با طبقه‌بندی متفاوت است، زیرا هدف از طبقه‌بندی، پیش‌بینی برچسب‌های کلاسی آیتم داده‌ای منحصر بفرد است، در حالی که هدف از تعیین آن برای پیش‌بینی مقادیر شیوع کلاس مجموعه موارد داده‌است. کمی سازی نیز با رگرسیون متفاوت است، زیرا در رگرسیون، آیتم‌های داده آموزشی برچسب‌هایی با ارزش واقعی دارند، در حالی که در کمی سازی، آیتم‌های داده‌های آموزشی دارای برچسب‌های کلاسی هستند.

در چندین کار تحقیقاتی[۲][۳][۴][۵][۶] نشان داده شده‌است که انجام کمیت با طبقه‌بندی همه موارد نامشخص و سپس شمارش مواردی که به هر کلاس نسبت داده شده‌است (روش 'طبقه‌بندی و شمارش') معمولاً منجر به دقت کمیت پایین‌تر می‌شود. این نابهینه بودن ممکن است به عنوان یک نتیجه مستقیم از "اصل Vapnik " در نظر گرفته شود، که بیان می‌کند:

اگر مقدار محدودی از اطلاعات برای حل برخی از مشکلات دارید، سعی کنید مستقیماً مشکل را حل کنید و هرگز یک مشکل کلی تر را به عنوان یک مرحله میانی حل نکنید. این امکان وجود دارد که اطلاعات موجود برای یک راه حل مستقیم کافی باشد اما برای حل یک مشکل واسطه ای عمومی کافی نیست.[۷]

در مورد ما، مسئله ای که باید به‌طور مستقیم حل شود، کمی سازی است، در حالی که مشکل واسط عمومی تر، طبقه‌بندی است. در نتیجه بهینه نبودن روش «طبقه‌بندی و شمارش»، کمی سازی به عنوان یک کار به خودی خود، متفاوت از طبقه‌بندی (‏در اهداف، روش‌ها، تکنیک‌ها و اقدامات ارزیابی)، تکامل‌یافته‌است.

منابع ویرایش

  1. Pablo González; Alberto Castaño; Nitesh Chawla; Juan José del Coz (2017). "A review on quantification learning". ACM Computing Surveys. 50: 74:1–74:40. doi:10.1145/3117807.
  2. George Forman (2008). "Quantifying counts and costs via classification". Data Mining and Knowledge Discovery. 17: 164–206. doi:10.1007/s10618-008-0097-y.
  3. Antonio Bella; Cèsar Ferri; José Hernández-Orallo; María José Ramírez-Quintana (2010). "Quantification via probability estimators". Proceedings of the 11th IEEE International Conference on Data Mining (ICDM 2010): 737–742. doi:10.1109/icdm.2010.75. ISBN 978-1-4244-9131-5.
  4. José Barranquero; Jorge Díez; Juan José del Coz (2015). "Quantification-oriented learning based on reliable classifiers". Pattern Recognition. 48: 591–604. Bibcode:2015PatRe..48..591B. doi:10.1016/j.patcog.2014.07.032.
  5. Andrea Esuli; Fabrizio Sebastiani (2015). "Optimizing text quantifiers for multivariate loss functions". ACM Transactions on Knowledge Discovery and Data. 9: Article 27. arXiv:1502.05491. doi:10.1145/2700406.
  6. Wei Gao; Fabrizio Sebastiani (2016). "From classification to quantification in tweet sentiment analysis". Social Network Analysis and Mining. 6: 1–22. doi:10.1007/s13278-016-0327-z.
  7. Vladimir Vapnik (1998). Statistical learning theory. New York, US: Wiley.