درخت تصمیم: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
جز جایگزینی با اشتباه‌یاب: سوال⟸سؤال، وزندار⟸وزن‌دار
برچسب: متن دارای ویکی‌متن نامتناظر
خط ۵۹:
</math>
 
حال سوالسؤال اینجاست که کدام بُعد از متغیرهای وابسته و چه آستانه‌ای را باید انتخاب کرد. به زبان ریاضی باید آن <math>\theta
 
</math>یی را انتخاب کرد که ناخالصی داده را کم کند. ناخالصی برحسب مسئله تعریفی متفاوت خواهد داشت، مثلا اگر مسئله یک دسته‌بندی دوگانه است، ناخالصی می‌تواند [[آنتروپی اطلاعات|آنتراپی]] داده باشد، کمترین ناخالصی زمانی است که هم <math>Q_{right}(\theta)
خط ۶۵:
</math> از یک دسته داشته باشند. برای رگرسیون این ناخالصی می تواند واریانس متغیر وابسته باشد. از آنجا که مقدار داده در <math>Q_{left}(\theta)
</math> و <math>Q_{right}(\theta)
</math> با هم متفاوت است یک میانگین وزنداروزن‌دار از هر دو ناخالصی به این شکل محاسبه می‌کنیم، در این معادله <math>N_m = |Q|
</math>، <math>n_{left} = |Q_{left}(\theta)|
</math> و <math>n_{right} = |Q_{right}(\theta)|