XGBoost

Xgboost
توسعه‌دهنده(ها)	The XGBoost Contributors
انتشار اولیه	۲۷ مارس ۲۰۱۴؛ ۱۰ سال پیش
انتشار پایدار	۰٫۷۰ / ۳۰ دسامبر ۲۰۱۷؛ ۶ سال پیش
مخزن	github.com/dmlc/xgboost ;
نوشته‌شده با	سی پلاس‌پلاس
سیستم‌عامل	لینوکس، مک‌اواس، مایکروسافت ویندوز
نوع	یادگیری ماشین
مجوز	مجوز آپاچی ۲٫۰
وبگاه	xgboost.ai

XGBoost^[۱] یک کتابخانه نرم‌افزار آزاد است که چارچوب تقویت گرادیان برای ++C، جاوا، پایتون،^[۲] R,^[۳] و جولیا،^[۴] پرل^[۵] و اسکالا را فراهم می‌کند. در لینوکس،^[۶] ویندوز، MacOS^[۷] کار می‌کند. هدف ارائه یک کتابخانه «مقیاس‌پذیر، قابل‌حمل و توزیع‌شده» (gbm, GBRT, GBDT) است. علاوه بر اجرای یک ماشین واحد، همچنین از چارچوب‌های پردازش توزیع‌شده آپاچی اسپارک، آپاچی هدوپ، آپاچی فلینک و داسک (نرم‌افزار) پشتیبانی می‌کند.^[۸]^[۹] این الگوریتم انتخاب بسیاری از تیم‌های برندهٔ شماری از رقابت‌های یادگیری ماشین بود و محبوبیت و توجه زیادی به دست آورده‌است.^[۱۰]

تاریخچه ویرایش

XGBoost در ابتدا به عنوان یک پروژه تحقیقاتی توسط تیانگی چن به عنوان بخشی از گروه یادگیری عمیق ماشینی توزیع‌شده آغاز شد.^[۱۱] در ابتدا به عنوان یک برنامه ترمینال (terminal application) آغاز شد که می‌توانست با استفاده از یک فایل پیکربندی libsvm پیکربندی شود. پس از پیروزی در چالش یادگیری ماشین هیگز، به عنوان بخشی از چرخهٔ مسابقه شناخته شد. پس از آن بسته‌های زبان‌های پایتون و R ساخته شدند و اکنون برای بسیاری از زبان‌های دیگر مثل جولیا، Scala، جاوا و غیره بسته‌هایی دارد و در بین جامعه Kaggle که برای تعداد زیادی از رقابت‌ها از آن استفاده شده‌است، محبوب است.^[۱۲]

خیلی زود با چندین بسته دیگر مورد استفاده قرار گرفت و در حال حاضر برای کاربران پایتون همراه با کتابخانهٔ scikit-learn و برای کاربران R همراه با بسته caret ارائه می‌شود.

الگوریتم ویرایش

الگوریتم $N$ داده آموزشیِ $\{(x_{i},y_{i})\}_{i=1}^{N}$ ، یک تابع مشتق‌پذیر هزینه $L(y,F(x))$ و یک نرخ یادگیریِ $\alpha$ به عنوان ورودی می‌گیرد و به این شکل مدل نهائی را می‌سازدː

اولین مدل ضعیف عددی ثابت است که تابع هزینه را کمینه می‌کند:
${\hat {f}}_{(0)}(x)={\underset {\theta }{\arg \min }}\sum _{i=1}^{N}L(y_{i},\theta ).$
برای $m=1$ تا $M$ :
1. گرادیان و هسین به این شکل محاسبه می‌شوند
  ${\hat {g}}_{m}(x_{i})=\left[{\frac {\partial L(y_{i},f(x_{i}))}{\partial f(x_{i})}}\right]_{f(x)={\hat {f}}_{(m-1)}(x)}.$
  
  ${\hat {h}}_{m}(x_{i})=\left[{\frac {\partial ^{2}L(y_{i},f(x_{i}))}{\partial f(x_{i})^{2}}}\right]_{f(x)={\hat {f}}_{(m-1)}(x)}.$
2. مدل برای داده‌های $\left\{x_{i},-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}\right\}_{i=1}^{N}$ به این شکل یادگرفته می‌شود:
  ${\hat {\phi }}_{m}={\underset {\phi \in \mathbf {\Phi } }{\arg \min }}\sum _{i=1}^{N}{\frac {1}{2}}{\hat {h}}_{m}(x_{i})\left[-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}-\phi (x_{i})\right]^{2}.$
  
  ${\hat {f}}_{m}(x)=\alpha {\hat {\phi }}_{m}(x).$
3. مدل به این شکل به روز می‌شود:
  ${\hat {f}}_{(m)}(x)={\hat {f}}_{(m-1)}(x)+{\hat {f}}_{m}(x).$
مدل نهائی عبارت است از ${\hat {f}}(x)={\hat {f}}_{(M)}(x)=\sum _{m=0}^{M}{\hat {f}}_{m}(x).$