بوت‌استرپینگ (آمار): تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Rezabot (بحث | مشارکت‌ها)
جز ربات :جایگزینی پیوند قرمز Bradley Efron > بردلی افرون (۷.۱)
Rezabot (بحث | مشارکت‌ها)
خط ۱۲:
 
== توصیف غیر رسمی ==
بوت استرپینگ این امکان را برای یک نفر فراهم می‌سازد که تعداد زیادی نسخهٔ جایگزین از یک آماره را که به طور معمول از یک نمونه محاسبه می‌شود جمع آوری کند. به عنوان مثال، فرض کنید که ما علاقه‌مند به جمع آوری اطلاعات در مورد قد افراد در جهان هستیم. به دلیل اینکه نمی‌توانیم کل جمعیت را اندازه‌گیری کنیم، تنها از یک قسمت کوچک نمونه برداری می‌کنیم. از این نمونه فقط یک آماره قابل محاسبه‌است، مثلاً یک میانگین یا یک انحراف معیار. در نتیجه نمی‌توانیم متوجه شویم که آماره‌ها چه قدر و در چه بازه‌ای تغییر می‌کنند. اما هنگامی که از بوت استرپ استفاده کنیم ما به صورت تصادفی یک نمونهٔ ''n'' تایی از ''N'' تا دادهٔ نمونه بر می‌داریم، به طوریکه هر نفر حد اکثر ''t'' بار می‌تواند انتخاب شود. با چندین بار انجام این کار در واقع تعداد زیادی مجموعهٔ داده می‌سازیم که برای هرکدام می‌توانیم یک آماره حساب کنیم. بنابراین به این روش یک تخمین از توزیع آماره به دست می‌آید. نکتهٔ مهم در این روش ساختن نسخه جایگزین از داده‌هایی است که ممکن است ما دیده باشیم.
 
== موارد کاربر روش بوت استرپینگ ==
خط ۳۰:
=== بازنمونه گیری ===
 
بوت استرپ به طور کلی برای تقریب توزیع آماره‌ها مفید است، بدون استفاده از روشهای معمول تئوری مثل تستهای آماری z-statistic, t-statistic. از بوت استرپ معمولاً وقتی استفاده می‌شود که هیچ روش معمول و تحلیلی ای برای کمک به تخمین توزیع آماره‌های مورد نظر وجود ندارد. حداقل دو روش برای این نوع نمونه گیری وجود دارد:
# [[الگوریتم مونت کارلو]] که برای استفاده در اینجا بسیار ساده نیز هست. ابتدا با جایگذاری از داده‌ها بازنمونه گیری می‌کنیم، اندازهٔ بازنمونه باید برابر اندازهٔ مجموعه دادهٔ اصلی باشد. سپس آمارهٔ مورد نظر با استفاده از بازنمونه به دست آمده از مرحلهٔ اول محاسبه می‌شود و اینکار چندین بار تکرار می‌شود تا جواب دقیقتری به دست آید.
# روش دقیق نیز شبیه [[مونت کارلو]] است با این تفائت که در این روش تمام بازنمونه‌های ممکن از مجموعهٔ داده‌ها محاسبه می‌شوند. تعداد بازنمونه‌ها برابر می‌شود با <math>\binom {2n-1}n</math> که در آن n اندازه مجموعه داده‌های اولیه‌است.
 
=== بوت استرپ نرم ===
خط ۴۵:
# مدل را برازش کن و مقادیر <math>\hat y_i</math> و باقی‌مانده‌ها <math>\hat{\epsilon}_i = y_i - \hat{y}_i, (i = 1,\dots, n)</math>.
را بازیابی کن.
# به ازای هر جفت,جفت، (''x<sub>i</sub>'', ''y<sub>i</sub>''), که در آن ''x<sub>i</sub>'' متغیر توضیحی است، یک بازنمونه تصادفی باقی‌مانده اضافه کن،<math>\hat{\epsilon}_j</math>، به جواب متغیر ''y<sub>i</sub>''. به بیان دیگر متغیرهای ساختگی جواب <math>y^*_i = \hat{y}_i + \hat{\epsilon}_j</math> را که در آن ''j'' [[متغیر تصادفی]] انتخاب شده از لیست (۱,۱، …, ''n'') است به ازای هر ''i''.
# مدل را مجدداً برازش کن با استفاده از متغیرهای ساختگی ''y*<sub>i</sub>'' و بازیابی کمیتهای مورد نظر
# مراحل ۲و ۳ را به تعدادی که از نظر آماری معنی دار باشد تکرار کنید.
خط ۸۲:
 
== مثالهایی از کاربردها ی بوت استرپ ==
=== کاربردهایی مربوط به تست ===
بوت استرپینگ یکی از مشهورترین متدهای آزمایش meidation است<ref>Preacher, K. J. , & Hayes, A. F. (2004). SPSS and SAS procedures for estimating indirect effects in simple mediation models. Behavior Research Methods, Instruments, and Computers, 36, 717–731 [http://www.comm.ohio-state.edu/ahayes/sobel.htm Macros for SAS and SPSS]</ref>. زیرا نیاز به فرض نرمال بودن ندارد و بعلاوه از آن می‌توان در مواردی که اندازهٔ نمونه کوچک است استفاده کرد (N <20)
 
=== بوت استرپ نرم شده ===
بوت استرپینگ روشی است که معمولاً برای تقریب فاصله اطمینان‌ها برای میانه استفاده می‌شود. اگرچه میانه یک آماره گسسته‌است، و این حقیقت خودش را در توزیع بوت استرپ نشان می‌دهد.
 
برای هموار کردن گسستگی میانه، ما می‌توانیم مقدار کمی از ''N''(۰,۰، ''σ''<sup>۲</sup>) نویز تصادفی را در هر نمونه بوت استرپ وارد کنیم.
برای نمونه‌ای با اندازهٔ ''n'' انتخاب می‌کنیم <math>\sigma = 1/\sqrt n</math>.
هیستوگرام‌های توزیع بوت استرپ و توزیع هموار شدهٔ بوت استرپ در زیر مشخص اند. توزیع بوت استرپ بسیار دندانه دار است زیرا میانه تنها مقادیر کمی را می‌تواند بپذیرد. اما توزیع بوت اترپ نرم شده بر این مشکل غلبه می‌کند.
خط ۱۰۶:
== یو-آماره‌ها (U-Statistics) ==
{{Main|U-statistic}}
در مواردی که یک آمارهٔ مشخص تنها با استفاده از عددی کوچک می‌تواند طراحی شود تا یک مشخصهٔ مورد نیاز را اندازه بگیرد، ''r''، از آبتم‌های داده، یک آمارهٔ متناظر بر اساس تمام نمونه می‌تواند فرمول بندی شود. اگر یک r-نمونه از اماره داده شده باشد، می‌توان یک n-نمونه از آماره را با روشی شبیه بوت استرپینگ ساخت (با گرفتن میانگین از آماره روی کل زیر نمونه‌ها با اندازهٔ r). این پروسه به عنوان پروسه‌ای با ویژگیهای خوب شناخته می‌شود و نتیجه یک U-statistic است. برای r=۱ و r=۲، میانگین و واریانس نمونه از این نوع اند.
 
== مبدا این اصطلاح ==
خط ۱۲۲:
[[رده:بازنمونه گیری]]
[[رده:تحلیل داده]]
[[رده:نمونه‌سازی مجدد (آمار)]]