مهندسی ویژگی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
جزبدون خلاصۀ ویرایش
برچسب: ویرایش مبدأ ۲۰۱۷
ویرایش
خط ۱:
'''مهندسی ویژگی''' یا '''استخراج ویژگی''' یا '''کشف ویژگی''' ، فرآیند استفاده از [[دانش دامنه|دانش]] حوزه برای استخراج ویژگی‌ها (مشخصات، خواص، صفت هاصفت‌ها) از [[داده|داده‌های]] خام است. <ref>{{Cite web|title=Machine Learning and AI via Brain simulations|url=https://ai.stanford.edu/~ang/slides/DeepLearning-Mar2013.pptx|website=Stanford University|accessdate=2019-08-01}}</ref> انگیزه استفاده از این ویژگی‌های اضافی برای بهبود کیفیت نتایج حاصل از فرآیند [[یادگیری ماشینی|یادگیری ماشین]] است، در مقایسه با ارائه تنها داده‌ خام به فرآیند یادگیری ماشین.
 
== روند ==
فرآیند مهندسی ترکیبویژگی عبارت است از: <ref>{{Cite web|title=Big Data: Week 3 Video 3 - Feature Engineering|url=https://www.youtube.com/watch?v=drUToKxEAUA|website=youtube.com}}</ref>
 
* ویژگی های [[طوفان فکری]] یا [[آزمون نرم‌افزار|آزمایش]] <ref>{{Cite journal|last=Jalal|first=Ahmed Adeeb|date=January 1, 2018|title=Big data and intelligent software systems|url=https://content.iospress.com/articles/international-journal-of-knowledge-based-and-intelligent-engineering-systems/kes180383|journal=International Journal of Knowledge-based and Intelligent Engineering Systems|volume=22|issue=3|pages=177–193|doi=10.3233/KES-180383|via=content.iospress.com}}</ref>
خط ۱۵:
 
* تبدیل‌های عددی (مانند گرفتن کسر یا مقیاس‌بندی)
* رمزگذار دسته مانند رمزگذار تک-نمود داغ{{به انگلیسی|one-hot}} یا هدف (برای [[داده‌های رسته‌ای|داده های طبقه بندی شده]] ) <ref>{{Cite web|title=Category Encoders — Category Encoders 2.2.2 documentation|url=https://contrib.scikit-learn.org/category_encoders/index.html|accessdate=2021-10-01|website=contrib.scikit-learn.org}}</ref>
* خوشه‌بندی
* خوشه بندی
* مقادیر تجمیع شده گروه
* تجزیه و تحلیل مؤلفهمولفه اصلی (برای داده های عددی)
 
== ارتباط ==
ویژگی ها از نظر مفهوم متفاوت هستند. <ref>{{Cite web|url=http://www.cs.princeton.edu/courses/archive/spring10/cos424/slides/18-feat.pdf|title=Feature Engineering|date=2010-04-22|accessdate=12 November 2015}}</ref> حتی ویژگی های نسبتاً کوچک ممکن است به یک نمونه کمک کنند. انتخاب ویژگی می‌تواند تعداد ویژگی‌ها را کم کند تا از خاص شدن یک نمونه به مجموعه داده‌های آموزشی (بیش از حد) جلوگیری کند. <ref>{{Cite web|url=http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/slides.pdf|title=Feature engineering and selection|date=October 1, 2009|publisher=Alexandre Bouchard-Côté|accessdate=12 November 2015}}</ref>
 
== انفجارپُکش ==
انفجارپُکش ویژگی زمانی اتفاق می افتد که تعداد ویژگی های شناسایی شده به شکل نامناسبی افزایش یابد. علت های متداول عبارتند از:
 
* قالب های ویژگی - پیاده سازی قالب های ویژگی به جای کدنویسی ویژگی های جدید
* ترکیباتترکیبش‌های ویژگی - ترکیباتیترکیبش‌هایی {{به انگلیسی|combination}} که نمی توانند با یک سیستم خطی نمایش داده شوند
 
انفجارپکش ویژگی را می توان از طریق روش هایی مثل: منظم سازی ، روش های هسته و انتخابانتخابش ویژگی کاهش داد. <ref>{{Cite web|url=https://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf|title=Feature engineering in Machine Learning|accessdate=12 November 2015|publisher=Zdenek Zabokrtsky|archiveurl=https://web.archive.org/web/20160304112056/https://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf|archivedate=4 March 2016}}</ref>
 
== اتوماسیونخودکارسازی ==
اتوماسیونخودکارسازی مهندسی ویژگی یک موضوع تحقیقاتی است که تاریخ آن ، به دهه 1990 برمی گردد. نرم افزار یادگیری ماشین که [[یادگیری ماشین اتوماتیک|مهندسی ویژگی های خودکار را]] را شامل می شود از سال 2016 به صورت تجاری در دسترس بوده است. <ref>{{Cite web|website=Reality AI Blog|title=Its all about the features|date=September 2017|url=https://reality.ai/it-is-all-about-the-features/}}</ref> ادبیات علمی مرتبط حدودا به دو شکل تقسیم می شود:
 
* یادگیری درخت تصمیم چند-رابطه ای (MRDTL) از یک الگوریتم نظارت شده استفاده می کند که شبیه به [[درخت تصمیم]] است.
* آمیختن ویژگی عمیق از روش های ساده‌تری استفاده می کند.
 
== منابع ==