درخت تصمیم: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
InternetArchiveBot (بحث | مشارکت‌ها)
نجات ۱ منبع و علامت‌زدن ۰ به‌عنوان مرده.) #IABot (v2.0.8
ویژگی پیوندهای پیشنهادی: ۴ پیوند افزوده شد.
خط ۳۸:
== الگوریتم ساخت درخت تصمیم‌گیری ==
مجموع داده‌ها را با <math>D
</math> نمایش می‌دهیم، یعنی <math>D = (x_1, y_1), \cdots, (x_i, y_i), \cdots, (x_n, y_n)</math>، به قسمی که <math>x_i \in R^d</math> و <math>y_i \in R</math>. درخت [[تصمیم‌گیری]] سعی می‌کند به صورت بازگشتی داده‌ها را به قسمی از هم جدا کند که در هر گِرِه متغیرهای مستقلِ <math>y</math> به هم نزدیک شده همسان شوند.<ref name=":0">{{یادکرد کتاب|نشانی=https://www.springer.com/us/book/9780387848570|عنوان=The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition|نام خانوادگی=Hastie|نام=Trevor|نام خانوادگی۲=Tibshirani|نام۲=Robert|نام خانوادگی۳=Friedman|نام۳=Jerome|تاریخ=2009|ناشر=Springer-Verlag|شابک=9780387848570|ویرایش=2|سری=Springer Series in Statistics|مکان=New York|زبان=en}}</ref> هر گِره زیر مجموعه ای از داده هاست که به صورت بازگشتی ساخته شده‌است. به‌طور دقیقتر در گره <math>m
</math> اگر داده ما <math>Q
</math> باشد سعی میکنیم یک بُعد از متغیرهایی وابسته را به همراه یک آستانه انتخاب کنیم و داده‌ها را برحسب این بُعد و آستانه به دو نیم تقسیم کنیم، به قسمی که بطور متوسط در هر دو نیم [[متغیر وابسته و مستقل|متغیرهای مستقل]] یا <math>y</math> خیلی به هم نزدیک و همسان شده باشند. این بعد و آستانه را <math>\theta = (j, t_m)
 
</math> می‌نامیم. دامنه <math>j
خط ۴۶:
</math> برابر است با <math>[1,\cdots, d]
</math> و <math>t_m
</math> یک [[عدد صحیح]] است. <math>Q
</math> برحسب <math>\theta = (j, t_m)
 
خط ۶۴:
</math>یی را انتخاب کرد که ناخالصی داده را کم کند. ناخالصی برحسب نوع مسئله تعریفی متفاوت خواهد داشت، مثلا اگر مسئله یک دسته‌بندی دوگانه است، ناخالصی می‌تواند [[آنتروپی اطلاعات|آنتراپی]] داده باشد، کمترین ناخالصی زمانی است که هم <math>Q_{right}(\theta)
</math> و هم <math>Q_{left}(\theta)
</math> از یک دسته داشته باشند، یعنی در هر کدام از این دو گِرِه دو نوع دسته وجود نداشته باشد. برای رگرسیون این ناخالصی می‌تواند [[واریانس]] متغیر وابسته باشد. از آنجا که مقدار داده در <math>Q_{left}(\theta)
</math> و <math>Q_{right}(\theta)
</math> با هم متفاوت است میانگینی وزن‌دار از هر دو ناخالصی را به شکل پایین محاسبه می‌کنیم.<ref name=":1">{{یادکرد کتاب|نشانی=https://dl.acm.org/citation.cfm?id=2755359|عنوان=Data Mining With Decision Trees: Theory and Applications|نام خانوادگی=Rokach|نام=Lior|نام خانوادگی۲=Maimon|نام۲=Oded|تاریخ=2014|ناشر=World Scientific Publishing Co., Inc.|شابک=9789814590075|ویرایش=2nd|مکان=River Edge, NJ, USA}}</ref> در این معادله <math>N_m = |Q|