درخت تصمیم: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
نجات ۱ منبع و علامتزدن ۰ بهعنوان مرده.) #IABot (v2.0.8 |
Delijeh531 (بحث | مشارکتها) ویژگی پیوندهای پیشنهادی: ۴ پیوند افزوده شد. |
||
خط ۳۸:
== الگوریتم ساخت درخت تصمیمگیری ==
مجموع دادهها را با <math>D
</math> نمایش میدهیم، یعنی <math>D = (x_1, y_1), \cdots, (x_i, y_i), \cdots, (x_n, y_n)</math>، به قسمی که <math>x_i \in R^d</math> و <math>y_i \in R</math>. درخت [[تصمیمگیری]] سعی میکند به صورت بازگشتی دادهها را به قسمی از هم جدا کند که در هر گِرِه متغیرهای مستقلِ <math>y</math> به هم نزدیک شده همسان شوند.<ref name=":0">{{یادکرد کتاب|نشانی=https://www.springer.com/us/book/9780387848570|عنوان=The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition|نام خانوادگی=Hastie|نام=Trevor|نام خانوادگی۲=Tibshirani|نام۲=Robert|نام خانوادگی۳=Friedman|نام۳=Jerome|تاریخ=2009|ناشر=Springer-Verlag|شابک=9780387848570|ویرایش=2|سری=Springer Series in Statistics|مکان=New York|زبان=en}}</ref> هر گِره زیر مجموعه ای از داده هاست که به صورت بازگشتی ساخته شدهاست. بهطور دقیقتر در گره <math>m
</math> اگر داده ما <math>Q
</math> باشد سعی میکنیم یک بُعد از متغیرهایی وابسته را به همراه یک آستانه انتخاب کنیم و دادهها را برحسب این بُعد و آستانه به دو نیم تقسیم کنیم، به قسمی که بطور متوسط در هر دو نیم [[متغیر وابسته و مستقل|متغیرهای مستقل]] یا <math>y</math> خیلی به هم نزدیک و همسان شده باشند. این بعد و آستانه را <math>\theta = (j, t_m)
</math> مینامیم. دامنه <math>j
خط ۴۶:
</math> برابر است با <math>[1,\cdots, d]
</math> و <math>t_m
</math> یک [[عدد صحیح]] است. <math>Q
</math> برحسب <math>\theta = (j, t_m)
خط ۶۴:
</math>یی را انتخاب کرد که ناخالصی داده را کم کند. ناخالصی برحسب نوع مسئله تعریفی متفاوت خواهد داشت، مثلا اگر مسئله یک دستهبندی دوگانه است، ناخالصی میتواند [[آنتروپی اطلاعات|آنتراپی]] داده باشد، کمترین ناخالصی زمانی است که هم <math>Q_{right}(\theta)
</math> و هم <math>Q_{left}(\theta)
</math> از یک دسته داشته باشند، یعنی در هر کدام از این دو گِرِه دو نوع دسته وجود نداشته باشد. برای رگرسیون این ناخالصی میتواند [[واریانس]] متغیر وابسته باشد. از آنجا که مقدار داده در <math>Q_{left}(\theta)
</math> و <math>Q_{right}(\theta)
</math> با هم متفاوت است میانگینی وزندار از هر دو ناخالصی را به شکل پایین محاسبه میکنیم.<ref name=":1">{{یادکرد کتاب|نشانی=https://dl.acm.org/citation.cfm?id=2755359|عنوان=Data Mining With Decision Trees: Theory and Applications|نام خانوادگی=Rokach|نام=Lior|نام خانوادگی۲=Maimon|نام۲=Oded|تاریخ=2014|ناشر=World Scientific Publishing Co., Inc.|شابک=9789814590075|ویرایش=2nd|مکان=River Edge, NJ, USA}}</ref> در این معادله <math>N_m = |Q|
|