آزمون کروسکال–والیس

آزمون کروسکال-والیس یا آزمون H کروسکال-والیس (که به نام دو دانشمند ویلیام کروسکال و آلن والیس گذاشته شده‌است) یک آزمون غیر پارامتری است برای تست کردن پیروی نمونه‌ها از یک توزیع. ^[۱]^[۲]^[۳] این روش برای بررسی کردن دو یا چند گروه نمونه با تعداد نمونه‌های یکسان یا متفاوت به‌کار می‌رود. این آزمون حالت تعمیم‌یافته‌ی آزمون یو مان-ویتنی است که فقط توانایی مقایسه‌ی دو گروه نمونه را دارد. حالت پارمتری این آزمون نیز تحلیل واریانس یک‌راهه است.

همان‌طور که می‌دانیم این آزمون غیر پارامتری است. بنابراین بر عکس تحلیل واریانس یک‌راهه این آزمون فرضی روی نرمال بودن توزیع ارور ندارد. اگر این فرض را بکنیم که نمودار تمام گروه‌ها صرف نظر از میانگینشان یک شکل و مقیاس هستند در این صورت فرض صفر ما برابر بودن میانگین گروه‌هاست و فرضیه مقابل نیز نابرابر بودن این میانگین‌ها در حداقل یک گروه است.

روش ویرایش

تمام داده‌ها را بدون در نظر گرفتن گروه‌ها از جایگاه ۱ تا N مرتب کنید. به مقادیر مساوی نیز میانگین جایگاهی که در صورت برابر نبودن می‌گرفتند بدهید.
آماره آزمون برابر است با:

H=(N-1){\frac {\sum _{i=1}^{g}n_{i}({\bar {r}}_{i\cdot }-{\bar {r}})^{2}}{\sum _{i=1}^{g}\sum _{j=1}^{n_{i}}(r_{ij}-{\bar {r}})^{2}}}

- $n_{i}$ تعداد نمونه‌های گروه i است
- $r_{ij}$ جایگاه (در بین تمامی نمونه‌ها) نمونه‌ی j از گروه i است.
- $N$ تعداد کل نمونه‌ها است. (در تمامی گروه‌ها)
- ${\bar {r}}_{i\cdot }={\frac {\sum _{j=1}^{n_{i}}{r_{ij}}}{n_{i}}}$ میانگین جایگاه‌های نمونه‌های گروه i است.
- ${\bar {r}}={\tfrac {1}{2}}(N+1)$ میانگین تمام $r_{ij}$ هاست.
اگر تمام نمونه‌ها متمایز باشند (جایگاه هیچ دوتایی برابر نباشد). در این صورت، قسمت صورت کسر عبارت H ساده می‌شود و برابر $(N-1)N(N+1)/12$ خواهد بود. همچنین ${\bar {r}}={\tfrac {N+1}{2}}$ . پس عبارت به صورت زیر ساده خواهد شد:

{\begin{aligned}H&={\frac {12}{N(N+1)}}\sum _{i=1}^{g}n_{i}\left({\bar {r}}_{i\cdot }-{\frac {N+1}{2}}\right)^{2}\\&={\frac {12}{N(N+1)}}\sum _{i=1}^{g}n_{i}{\bar {r}}_{i\cdot }^{2}-\ 3(N+1)\end{aligned}}

که فرمول آخر نشان‌دهنده‌ی مربعات میانگین جایگاه‌هاست.

در صورتی که نمونه‌ها دارای مقادیر برابر باشند نیز برای اصلاح فرمول بالا می‌توان H را بر $1-{\frac {\sum _{i=1}^{G}(t_{i}^{3}-t_{i})}{N^{3}-N}}$ تقسیم کرد که G تعداد گروه‌های برابری نمونه‌ها است. همچنین t_i نیز تعداد نمونه‌های گروه i از G است. این عبارت تقسیم‌شده معمولاً تاثیر بسیار کمی در مقدار H می‌گذارد مگر اینکه تعداد نمونه‌های برابر زیاد باشند.
در نهایت با توجه به مقدار H به‌دست آمده از فرمول و مقدار بحرانی $H_{0}$ به‌دست آمده از جدولی که دارای مقادیر معنادار است؛ در مورد رد کردن فرض صفر تصمیم می‌گیریم. در صورت امکان (تعداد نمونه‌های زیاد نباشند و نمونه‌های مساوی نداشته‌باشیم) بهتر است که از توزیع واقعی H مقادیر بحرانی را به‌دست بیاوریم. اما در غیر این صورت توزیع H می‌تواند با توزیع کی‌دو با درجه آزادی $g-1$ تخمین‌ زده‌شود.

جداول دقیق احتمال ویرایش

مقادیر زیادی توان پردازشی لازم است تا مقدار دقیق احتمال در آزمون کروسکال-والیس محاسبه شود (همان‌طور که اشاره شد در بیشتر مواقع که توان پردازشی نداریم، میزان احتمال را با توزیع کی‌دو تخمین می‌زنیم) نرم‌افزارهای موجود احتمال دقیق را فقط برای تعداد نمونه‌ی کم‌تر یا مساوی ۳۰ عدد محاسبه می‌کنند و برای نمونه‌های بیشتر از تخمین‌هایی برای به‌دست آوردن این مقدار استفاده می‌کنند.

مقدار دقیق احتمال برای نمونه‌های بیشتر نیز موجود است. آقای اسپریر در سال ۲۰۰۳ جدول مقادیر احتمال را برای تعداد نمونه‌های تا ۴۵ تا منتشر کرد. ^[۴] همچنین آقایان مِیِر و سایمون نیز در سال ۲۰۰۶ جدول را برای تعداد نمونه‌ها تا ۱۰۵ تا منتشر کردند. ^[۵]

توزیع دقیق H ویرایش

Choi و همکارانش در مقاله‌ای ^[۶] به بررسی دو روش محاسبه‌ی این توزیع پرداختند و همچنین یک روش جدید را نیز ارائه کردند و روش خود را با تخمین با استفاده از توزیع کی‌دو مقایسه کردند.

مراجع ویرایش

↑ Kruskal; Wallis (1952). "Use of ranks in one-criterion variance analysis". Journal of the American Statistical Association. 47 (260): 583–621. doi:10.1080/01621459.1952.10483441.
↑ Corder, Gregory W.; Foreman, Dale I. (2009). Nonparametric Statistics for Non-Statisticians. Hoboken: John Wiley & Sons. pp. 99–105. ISBN 9780470454619.
↑ Siegel; Castellan (1988). Nonparametric Statistics for the Behavioral Sciences (Second ed.). New York: McGraw–Hill. ISBN 0070573573.
↑ Spurrier, J. D. (2003). "On the null distribution of the Kruskal–Wallis statistic". Journal of Nonparametric Statistics. 15 (6): 685–691. doi:10.1080/10485250310001634719.
↑ Meyer; Seaman (April 2006). "Expanded tables of critical values for the Kruskal–Wallis H statistic". Paper presented at the annual meeting of the American Educational Research Association, San Francisco. Critical value tables and exact probabilities from Meyer and Seaman are available for download at http://faculty.virginia.edu/kruskal-wallis/ بایگانی‌شده در ۱۷ اکتبر ۲۰۱۸ توسط Wayback Machine. A paper describing their work may also be found there.
↑ Won Choi, Jae Won Lee, Myung-Hoe Huh, andSeung-Ho Kang (2003). "An Algorithm for Computing the Exact Distribution of the Kruskal–Wallis Test". Communications in Statistics - Simulation and Computation (32, number 4): 1029–1040. doi:10.1081/SAC-120023876.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

پیوندهای خارجی ویرایش

نسخه‌ی آنلاین این آزمون

[1] Kruskal; Wallis (1952). "Use of ranks in one-criterion variance analysis". Journal of the American Statistical Association. 47 (260): 583–621. doi:10.1080/01621459.1952.10483441.

[2] Corder, Gregory W.; Foreman, Dale I. (2009). Nonparametric Statistics for Non-Statisticians. Hoboken: John Wiley & Sons. pp. 99–105. ISBN 9780470454619.

[3] Siegel; Castellan (1988). Nonparametric Statistics for the Behavioral Sciences (Second ed.). New York: McGraw–Hill. ISBN 0070573573.

[4] Spurrier, J. D. (2003). "On the null distribution of the Kruskal–Wallis statistic". Journal of Nonparametric Statistics. 15 (6): 685–691. doi:10.1080/10485250310001634719.

[5] Meyer; Seaman (April 2006). "Expanded tables of critical values for the Kruskal–Wallis H statistic". Paper presented at the annual meeting of the American Educational Research Association, San Francisco. Critical value tables and exact probabilities from Meyer and Seaman are available for download at http://faculty.virginia.edu/kruskal-wallis/ بایگانی‌شده در ۱۷ اکتبر ۲۰۱۸ توسط Wayback Machine. A paper describing their work may also be found there.

[6] Won Choi, Jae Won Lee, Myung-Hoe Huh, andSeung-Ho Kang (2003). "An Algorithm for Computing the Exact Distribution of the Kruskal–Wallis Test". Communications in Statistics - Simulation and Computation (32, number 4): 1029–1040. doi:10.1081/SAC-120023876.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]