بوت‌استرپینگ (آمار): تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
R0stam (بحث | مشارکت‌ها)
ابرابزار، اصلاح املا، اصلاح نشانی وب
خط ۱:
در [[آمار]]، '''بوت استرپینگ''' {{انگلیسی|Bootstrapping}} یک متد کامپیوتری است برای نسبت دادن معیار دقت به تخمینهای دادهٔ نمونه ([[Bradley Efron|Efron]] و[[Robert Tibshirani|Tibshirani]] 1994۱۹۹۴). دراین تکنیک تنها با یک روش خیلی ساده می‌توان تقریباً هر آماره‌ای از توزیع داده‌های نمونه را تخمین زد. به طور عمومی این روش از روشهای [[بازنمونه گیری]] به حساب می‌آید.
 
بوت استرپینگ در واقع تخمین ویژگی‌های (مثل واریانس) یک تخمین زننده‌است با استفاده از [[اندازه گیریاندازه‌گیری]] همین ویژگیها در یک توزیع تقریبی از کل داده‌های نمونه. یک انتخاب استاندارد برای توزیع تقریبی، توزیع تجربی داده‌های مشاهده شده‌است. در حالتی که بتوان فرض کرد مجموعه‌ای از مشاهده‌ها از جمعیتی مستقل و به طور مساوی توزیع شده می‌باشد، بوت استرپینگ می‌تواند با ساخت تعدای بازنمونه پیاده سازیپیاده‌سازی شود، که هرکدام از این بازنمونه‌های در واقع نمونه‌هایی رندم با جایگذاری از مجموعه داده‌های اصلی هستند.
 
همچنین از بوت استرپینگ می‌توان در ساخت [[آزمون فرض آماری]] استفاده کرد. از این روش معمولاً به عنوان جایگزینی برای متدهای استنباطی بر پایه فرضهای پارامتری هنگامی که در مورد این فرضها شک داشته باشیم استفاده می‌شود. یا مواردی که استنباط پارامتری غیر ممکن باشد یا برای محاسبهٔ خطای استاندار فرمول محاسباتی پیچیده شود از بوت استرپینگ استفاده می‌کنیم.
خط ۱۲:
 
== توصیف غیر رسمی ==
بوت استرپینگ این امکان را برای یک نفر فراهم می‌سازد که تعداد زیادی نسخهٔ جایگزین از یک آماره را که به طور معمول از یک نمونه محاسبه می‌شود را جمع آوری کند. به عنوان مثال، فرض کنید که ما علاقه‌مند به جمع آوری اطلاعات در مورد قد افراد در جهان هستیم. به دلیل اینکه نمی‌توانیم کل جمعیت را اندازه گیریاندازه‌گیری کنیم، تنها یک از قسمت کوچک نمونه برداری می‌کنیم. از این نمونه فقط یک آماره قابل محاسبه‌است، مثلاً یک میانگین یا یک انحراف معیار. در نتیجه نمی‌توانیم متوجه شویم که آماره‌ها چه قدر و در چه بازه‌ای تغییر می‌کنند. اما هنگامی که از بوت استرپ استفاده کنیم ما به صورت تصادفی یک نمونهٔ ''n'' تایی از ''N'' تا دادهٔ نمونه بر می‌داریم، به طوریکه هر نفر حد اکثر ''t'' بار می‌تواند انتخاب شود. با چندین بار انجام این کار در واقع تعداد زیادی مجموعهٔ داده می‌سازیم که برای هرکدام می‌توانیم یک آماره حساب کنیم. بنابراین به این روش یک تخمین از توزیع آماره به دست می‌آید. نکتهٔ مهم در این روش ساختن نسخه جایگزین از داده‌هایی است که ممکن است ما دیده باشیم.
 
== موارد کاربر روش بوت استرپینگ ==
خط ۴۵:
# مدل را برازش کن و مقادیر <math>\hat y_i</math> و باقی‌مانده‌ها <math>\hat{\epsilon}_i = y_i - \hat{y}_i, (i = 1,\dots, n)</math>.
را بازیابی کن.
# به ازای هر جفت, (''x<sub>i</sub>'', ''y<sub>i</sub>''), که در آن ''x<sub>i</sub>'' متغیر توضیحی است، یک بازنمونه تصادفی باقی‌مانده اضافه کن،<math>\hat{\epsilon}_j</math>، به جواب متغیر ''y<sub>i</sub>''. به بیان دیگر متغیرهای ساختگی جواب <math>y^*_i = \hat{y}_i + \hat{\epsilon}_j</math> را که در آن ''j'' [[متغیر تصادفی]] انتخاب شده از لیست (1۱, …, ''n'') است به ازای هر ''i''.
# مدل را مجدداً برازش کن با استفاده از متغیرهای ساختگی ''y*<sub>i</sub>'' و بازیابی کمیتهای مورد نظر
# مراحل ۲و ۳ را به تعدادی که از نظر آماری معنی دار باشد تکرار کنید.
خط ۵۶:
 
=== بوت استرپ بلاک متحرک ===
در این روش n-b+1۱ بلاک دارای اشتراک و هرکدام به طول b به صورت روبه رو ساخته می‌شوند: مشاهده‌های ۱ تا b می‌شوند بلاک ۱، مشاهده‌های ۲ تا
b+1۱ می‌شوند بلاک۲ و به همین ترتیب. سپس از این بلاکها n/b باک به صورت تصادفی همراه با جایگذاری انتخاب می‌شوند. سپس مرتب کردن این n/b بلاک به همان ترتیبی که برداشته شده‌اند مشاهده‌های بوت استرپ را می‌دهد. این نوع روش با داده‌های وابسته نیز کار می‌کند اگرچه مشاهده‌ها دیگر با ساختن، ایستا نخواهند بود. اما نشان داده شده‌است که متغیر بودن طول بلاک از این مشکل جلوگیری می‌کند.<ref>Politis, D.N. and Romano, J.P. (1994). The stationary bootstrap. Journal of American Statistical Association, 89, 1303-1313.</ref>
 
== انتخاب آماره- گردان ==
خط ۶۴:
* تولید نمونه‌های بوت استرپ از آمارهٔ جدید (میانگین تقسیم بر [[انحراف معیار]] نمونه)، ساخت یک فاصلهٔ اطمینان برای این، سپس فاصلهٔ اطمینان نهایی برای میانگین از ضرب کردن نقاط انتهایی از فاصلهٔ اطمینان اولیه در انحراف معیار نمونه‌ای از نمونهٔ اصلی به دست می‌آید.
 
تایج متفاوت خواهند بود و نتایج [[شبیه سازیشبیه‌سازی]] نشان می‌دهند که روش دوم بهتر است. این روش به نوعی می‌تواند از روش پارامتریک استاندارد برای توزیع‌های نرمال منتج شود البته کمی عمومی تر. ایده این است که از یک کمیت محوری(pivotal quantity) استفاده شود، یا اینکه آماره‌ای که تقریباً محوری باشد پیدا شود. همچنین بد نیست که نگاهی به[[:w:en:Ancillary_statistic|Ancillary statistic]] هم انداخته شود.
 
== نتیجه گیرینتیجه‌گیری فاصله‌های اطمینان از توزیع بوت استرپ ==
راه‌های زیادی برای استفاده از توزیع بوت استرپ در محاسبه فاصلهٔ اطمینان برای آماره‌های شبیه سازیشبیه‌سازی شده وجود دارند و هیچ متدی وجود ندارد که برای تمام مسائل بهترین جواب را بدهد. انتخاب بین سادگی و عمومیت و هدف متدهای تنظیم شده مختلف است که می‌کوشند برای پوشش بیشتر.
 
=== تاثیر اریبی و فقدان تقارن روی فاصله‌های اطمینان بوت استرپ ===
خط ۷۶:
این متدها شامل متدهای زیر می‌باشند:
* '''بوت استرپ بر حسب درصد'''
* '''بوت استرپ پایه ایپایه‌ای'''
* '''بوت استرپ استیودنت شده'''
* '''بوت استرپ اریب-درست شده'''
خط ۸۲:
 
== مثالهایی از کاربردها ی بوت استرپ ==
=== کاربردهایی مربوط به تست [//en.wikipedia.org/w/index.php?title=Mediation_(statistics)&oldid=420102979 Mediation] === بوت استرپینگ یکی از مشهورترین متدهای آزمایش meidation است <ref>Preacher, K. J. , & Hayes, A. F. (2004). SPSS and SAS procedures for estimating indirect effects in simple mediation models. Behavior Research Methods, Instruments, and Computers, 36, 717–731 [http://www.comm.ohio-state.edu/ahayes/sobel.htm Macros for SAS and SPSS]</ref>. زیرا نیاز به فرض نرمال بودن ندارد و بعلاوه از آن می‌توان در مواردی که اندازهٔ نمونه کوچک است استفاده کرد (N <20). === بوت استرپ نرم شده ===
=== کاربردهایی مربوط به تست [//en.wikipedia.org/w/index.php?title=Mediation_(statistics)&oldid=420102979 Mediation] ===
بوت استرپینگ یکی از مشهورترین متدهای آزمایش meidation است <ref>Preacher, K. J. , & Hayes, A. F. (2004). SPSS and SAS procedures for estimating indirect effects in simple mediation models. Behavior Research Methods, Instruments, and Computers, 36, 717–731 [http://www.comm.ohio-state.edu/ahayes/sobel.htm Macros for SAS and SPSS]</ref>. زیرا نیاز به فرض نرمال بودن ندارد و بعلاوه از آن می‌توان در مواردی که اندازهٔ نمونه کوچک است استفاده کرد (N <20).
 
=== بوت استرپ نرم شده ===
بوت استرپینگ روشی است که معمولاً برای تقریب فاصله اطمینان‌ها برای میانه استفاده می‌شود. اگرچه میانه یک آماره گسسته‌است، و این حقیقت خودش را در توزیع بوت استرپ نشان می‌دهد.
 
برای هموار کردن گسستگی میانه، ما می‌توانیم مقدار کمی از ''N''(0۰, ''σ''<sup>۲</sup>) نویز تصادفی را در هر نمونه بوت استرپ وارد کنیم.
برای نمونه‌ای با اندازهٔ ''n'' انتخاب می‌کنیم <math>\sigma = 1/\sqrt n</math>.
هیستوگرام‌های توزیع بوت استرپ و توزیع هموار شدهٔ بوت استرپ در زیر مشخص اند. توزیع بوت استرپ بسیار دندانه دار است زیرا میانه تنها مقادیر کمی را می‌تواند بپذیرد. اما توزیع بوت اترپ نرم شده بر این مشکل غلبه می‌کند.
سطر ۱۰۶ ⟵ ۱۰۳:
== یو-آماره‌ها (U-Statistics) ==
{{Main|U-statistic}}
در مواردی که یک آمارهٔ مشخص تنها با استفاده از عددی کوچک می‌تواند طراحی شود تا یک مشخصهٔ مورد نیاز را اندازه بگیرد، ''r''، از آبتم‌های داده، یک آمارهٔ متناظر بر اساس تمام نمونه می‌تواند فرمول بندی شود. اگر یک r-نمونه از اماره داده شده باشد، می‌توان یک n-نمونه از آماره را با روشی شبیه بوت استرپینگ ساخت (با گرفتن میانگین از آماره روی کل زیر نمونه‌ها با اندازهٔ r). این پروسه به عنوان پروسه‌ای با ویژگیهای خوب شناخته می‌شود و نتیجه یک U-statistic است. برای r=1۱ و r=۲، میانگین و واریانس نمونه از این نوع اند.
 
== مبدا این اصطلاح ==
استفاده از این نام در آمار توسط Bradley Efron در "Bootstrap methods: another look at the jackknife," Annals of Statistics, 7, (1979) 1۱-26۲۶. مراجعه شود به[http://www.economics.soton.ac.uk/staff/aldrich/Mathematical%20Words.htm#boots Notes for Earliest Known Uses of Some of the Words of Mathematics: Bootstrap] (John Aldrich) و[http://jeff560.tripod.com/b.html Earliest Known Uses of Some of the Words of Mathematics (B)] (Jeff Miller) for details.
 
== منابع ==