توزیع خی‌دو

توزیع خی‌دو[۱] (و یا کی‌دو یا ) (به انگلیسی: Chi-square distribution) در نظریه احتمالات و آمار، دارای کاربرد وسیعی در آمار استنباطی است، به‌طور مثال در آزمون معناداری آماری.[۲][۳][۴]

خی‌دو
تابع چگالی احتمال
Chi-square distributionPDF.png
تابع توزیع تجمعی
Chi-square distributionCDF.png
فراسنجه‌ها درجات آزادی
تکیه‌گاه
تابع چگالی احتمال
تابع توزیع تجمعی
میانگین
میانه تقریباً
مُد if
واریانس
چولگی
کشیدگی
آنتروپی
تابع مولد گشتاور for
تابع مشخصه
  

درتئوری آمار و احتمال chi-square distribution با k درجه آزادی توزیعی است از یک سری مجموع مربعات متغیرهای تصادفی نرمال مستقل از هم (یعنی شما یه توزیع نرمال داری ازش به‌طور تصادفی متغیرهایی رو برمی‌داری اینا رو به توان دو میرسونی و با هم جمع می‌کنی این میشه chi-square distribution)

chi-square distribution یک نمونه خاصی از توزیع گاماست؛ و در توزیع‌های احتمال در آمار استنباطی کاربرد زیادی دارد؛ به ویژه در hypothesis testing و ساختن نواحی اطمینان (یک سیگما دو سیگما و…). این توزیع اغلب توزیع کای-اسکور مرکزی نامیده می‌شود؛ مورد خاصی از توزیع کای-اسکور عام غیر مرکزی است. chi-square distribution در تست‌های متداول فیتینگ از یک توزیع مشاهده شده با یک توزیع تیوریکال استفاده می‌شود.

مستقل از دو معیار: طبقه‌بندی کیفیت داده‌ها و برآورد فاصلهٔ اطمینان (همون یک سیگما دو سیگما) برای جمعیتی که انحراف استاندارش از یک توزیع نرمال برای یک نمونه انحراف استاندارد. بسیاری از آزمونهای آماری نیز از این توزیع استفاده می‌کنند مانند تحلیل فریدمان براساس رتبه‌ها.

رتبه‌بندی به کار می‌رود و نیز برای مقایسه میانگین رتبه‌بندی گروه‌های مختلف کاربرد دارد)

اگر Z1، … ، Zk متغیرهای تصادفی نرمال استاندارد و مستقل باشند، پس حاصل جمع مربعات آنها:

standard normal random variables

برطبق توزیع کای-اسکور با k درجه آزادی توزیع می‌شود. این معمولاً به صورت زیر نشان داده می‌شود:

توزیع کای-اسور دارای یک پارامتر است: یک عدد صحیح مثبت k که تعداد درجات آزادی (تعداد Ziها) را مشخص می‌کند.

Introductionویرایش

توزیع کای-اسکور در درجه اول در hypothesis testing و به میزان کمتری برای فواصل اطمینان confidence intervals برای واریانس جمعیت هنگامی که توزیع نرمال هستند، استفاده می‌شود. برخلاف توزیع‌های مشهورتر مانند توزیع نرمال و توزیع نمایی، توزیع کای-اسکور به‌طور معمول در مدل‌سازی مستقیم پدیده‌های طبیعی اعمال نمی‌شود. این در آزمون فرضیه زیر وجود دارد:

۱- تست کای-اسکور مستقل در جداول احتمالی contingency tables

(جدول پیشایندی نوعی جدول در شکل ماتریس است، که توزیع فراوانی متغییرها را نشان می‌دهد. فرض کنید ما دو متغیر داریم، جنسیت و راست‌دستی و چپ‌دستی. سپس فرض کنید، می‌خواهیم برای مطالعه اختلاف راست‌دستی یا چپ‌دستی با توجه به جنس، ۱۰۰ نفر را به عنوان نمونه از جامعه آماری بسیار بزرگ انتخاب کنیم. می‌توان برای نشان دادن تعداد افراد مذکر و راست‌دست، مذکر و چپ‌دست، مؤنث راست‌دست و مؤنث چپ‌دست، از یک جدول پیشایندی استفاده کرد)

  1. تست کای-اسکور برای برازش داده‌های مشاهده شده با توزیع‌های فرضی
  2. Likelihood-ratio test برای مدل‌های تو در تو
  3. Log-rank test در تجزیه و تحلیل بقا
  4. آزمون Cochran – Mantel – Haenszel برای جداول احتمالی طبقه ای stratified contingency tables

این همچنین مولفه ای از تعریف توزیع t و توزیع F است که در آزمونهای t، تحلیل واریانس و تحلیل رگرسیون استفاده می‌شود.

دلیل اصلی استفاده از توزیع کای-اسکور در hypothesis testing، ارتباط آن با توزیع طبیعی است. در بسیاری از hypothesis testing آماری یک تست آماری استفاده می‌شود مانند آمار t در آزمون t t-statistic in a t-test. برای این hypothesis testing، با سایز نمونه n با افزایش توزیع نمونه تست به توزیع طبیعی نزدیک می‌شود (قضیه حد مرکزی).

از آنجا که آمار آزمون (مانند t) بصورت مجانبی به توزیع نرمال میل می‌کند، به شرط آنکه اندازه نمونه به اندازه کافی بزرگ باشد، توزیع مورد استفاده برای hypothesis testing ممکن است تقریباً توزیع نرمال باشد. hypothesis testing با استفاده از توزیع نرمال کاملاً شناخته شده و نسبتاً آسان است. ساده‌ترین توزیع کای-اسکور؛ مربع یک توزیع نرمال استاندارد است؛ بنابراین هر جا یک توزیع نرمال داشتیم می‌توان از hypothesis testing استفاده کرد و می‌توان از توزیع کای-اسکور استفاده کرد.

فرض کنید Z یک متغیر تصادفی است که از توزیع نرمال استاندارد نمونه برداری شده‌است standard normal distribution، که میانگین برابر با ۰ و واریانس: 1 Z ∼ N (0، ۱). اکنون متغیر تصادفی Q = Z ^ {2} را در نظربگیرید. توزیع متغیر تصادفی Q نمونه ای از توزیع کای-اسکور است: Q ∼ χ ۱ ۲. زیرنویس ۱ نشان می‌دهد این توزیع کای-اسکور خاص فقط از ۱ توزیع نرمال استاندارد ساخته شده. یک توزیع کای-اسکور ساخته شده از مربع یک توزیع نرمال استاندارد واحد استاندارد که دارای ۱ درجه آزادی است؛ بنابراین، با افزایش سایز نمونه برای یک hypothesis testing، توزیع آماری به یک توزیع طبیعی نزدیک می‌شود. همان‌طور که مقادیر شدید توزیع نرمال احتمال کمی دارند (و پی ولیو آن‌ها کوچک است)، مقادیر شدید توزیع کای-اسکور نیز احتمال کمی دارند.

یک دلیل دیگر که توزیع کای-اسکور به‌طور گسترده‌ای مورد استفاده قرار می‌گیرد این است که به عنوان توزیع نمونه زیادی از تست هایlikelihood ratio tests (LRT) تبدیل می‌شود. LRT چندین خاصیت مطلوب دارد. به‌طور خاص، LRT ساده معمولاً بالاترین قدرت را برای رد فرضیه صفر (لیمای نیمان-پیرسون) فراهم می‌کند و این امر به خصوصیات بهینه‌سازی LRTهای تعمیم یافته نیز منجر می‌شود. با این حال، تقریب‌های کای-اسکور نرمال فقط به صورت مجانبی معتبر هستند. به همین دلیل، استفاده از توزیع t به جای تقریب نرمال یا تقریب کای-اسکور برای نمونه‌های کوچک ترجیح داده می‌شود. به همین ترتیب، در تجزیه و تحلیل جداول احتمالی contingency tables، تقریب کای-اسکور برای نمونه کوچک ضعیف خواهد بود و استفاده از آزمون دقیق فیشر ترجیح داده می‌شود. رمزی نشان می‌دهد که تست دو جمله ای همیشه قدرتمندتر از تقریب طبیعی است. [۷]

لنکستر ارتباطات بین توزیع دوجمله ای، توزیع نرمال و توزیع کای-اسکور را به شرح زیر نشان می‌دهد. دی موایر و لاپلاس ثابت کردند که یک توزیع دوجمله ای می‌تواند تقریباً یک توزیع نرمال باشد. آنها به‌طور خاص نرمال مجانبی متغیر تصادفی را نشان دادند.

در نتیجه توزیع دوجمله ای (پرتاب یک سکه) ، توزیع دوجمله ای ممکن است با یک توزیع عادی تقریبی شود (برای n به اندازه کافی بزرگ). چرا که مربع یک توزیع نرمال استاندارد همان توزیع کای-اسکور با یک درجه آزادی است، احتمال یک نتیجه از جمله ۱ در ۱۰ آزمایش می‌توان با استفاده از توزیع نرمال به طور مستقیم تقریب زد یا توزیع کای-اسکور؛ مربع اختلافات بین مقدار مشاهده شده و مقدار واقعی. با این حال، بسیاری از مسایل بیش از دو نتیجه احتمالی یعنی یک دو جمله ای را شامل می شوند و در عوض به ۳ دسته یا بیشتر نیاز دارند که منجر به توزیع چند جمله ای می‌شود. درست همان‌طور که دو مویر و لاپلاس تقریب نرمال را با تقریب دوجمله یافتند و یافتند، پیرسون تقریب نرمال چند متغیره منحط به توزیع چند جمله ای را جستجو و پیدا کرد (اعداد در هر گروه به کل اندازه نمونه اضافه می شوند که ثابت در نظر گرفته می‌شود) . پیرسون نشان داد که توزیع کای-اسکور از چنین تقریب نرمال چند متغیره به توزیع چند جمله ای بوجود آمده‌است، با در نظر گرفتن دقیق وابستگی آماری (همبستگی های منفی) بین تعداد مشاهدات در دسته‌های مختلف.
(در آمار و احتمال، به بیان ساده، تابعِ چگالیِ احتمالِ یک متغیر تصادفی پیوسته به تابعی گفته می‌شود که انتگرال آن در هر بازهٔ معین، برابر با احتمال قرار داشتن متغیر تصادفی در آن بازه است؛ بنابراین، احتمال این‌که یک متغیر تصادفی پیوسته، یک مقدار معیّن اختیار کند، صفر است. مقدار تابع چگالی احتمال همواره غیرمنفی است )

Probability density functionویرایش

تابع چگالی احتمال یا (pdf) از chi-square distribution طبق زیر نوشته می‌شود:

تابع توزیع تجمعی (cdf) از chi-square distribution طبق زیر است:
where is the lower incomplete gamma function and is the regularized gamma function.
K=۲ :

جدول توزیع و ضریب pویرایش

p-value احتمال مشاهده یک تست آماری حداقل در حد یک توزیع کای-اسکور است. بر این اساس، از آنجا که تابع توزیع تجمعی (CDF)cumulative distribution function برای درجات آزادی مناسب (df) احتمال به دست آوردن مقداری شدیدتر از این نقطه را می‌دهد، با کسر مقدار CDF از ۱ مقدار p-value به دست می‌آید. p-value کم ، زیر سطح معنادار انتخاب شده، نشانگر اهمیت آمار است، یعنی شواهد کافی برای رد فرضیه صفر. از سطح معناداری ۰٫۰۵ اغلب به عنوان قطع نتایج قابل توجه و غیر معنادار استفاده می‌شود. جدول زیر تعدادی از p-value مطابق با χ ۲ را برای ۱۰ درجه آزادی ارائه می‌دهد.

مقدار ضریب p در پایین بر اساس χ2 برای ۱۰ درجهٔ ضریب آزادی تعیین می‌شود.

درجه آزادی (df) [۵] مقدار χ2
۱ ۰٫۰۰۴ ۰٫۰۲ ۰٫۰۶ ۰٫۱۵ ۰٫۴۶ ۱٫۰۷ ۱٫۶۴ ۲٫۷۱ ۳٫۸۴ ۶٫۶۳ ۱۰٫۸۳
۲ ۰٫۱۰ ۰٫۲۱ ۰٫۴۵ ۰٫۷۱ ۱٫۳۹ ۲٫۴۱ ۳٫۲۲ ۴٫۶۱ ۵٫۹۹ ۹٫۲۱ ۱۳٫۸۲
۳ ۰٫۳۵ ۰٫۵۸ ۱٫۰۱ ۱٫۴۲ ۲٫۳۷ ۳٫۶۶ ۴٫۶۴ ۶٫۲۵ ۷٫۸۱ ۱۱٫۳۴ ۱۶٫۲۷
۴ ۰٫۷۱ ۱٫۰۶ ۱٫۶۵ ۲٫۲۰ ۳٫۳۶ ۴٫۸۸ ۵٫۹۹ ۷٫۷۸ ۹٫۴۹ ۱۳٫۲۸ ۱۸٫۴۷
۵ ۱٫۱۴ ۱٫۶۱ ۲٫۳۴ ۳٫۰۰ ۴٫۳۵ ۶٫۰۶ ۷٫۲۹ ۹٫۲۴ ۱۱٫۰۷ ۱۵٫۰۹ ۲۰٫۵۲
۶ ۱٫۶۳ ۲٫۲۰ ۳٫۰۷ ۳٫۸۳ ۵٫۳۵ ۷٫۲۳ ۸٫۵۶ ۱۰٫۶۴ ۱۲٫۵۹ ۱۶٫۸۱ ۲۲٫۴۶
۷ ۲٫۱۷ ۲٫۸۳ ۳٫۸۲ ۴٫۶۷ ۶٫۳۵ ۸٫۳۸ ۹٫۸۰ ۱۲٫۰۲ ۱۴٫۰۷ ۱۸٫۴۸ ۲۴٫۳۲
۸ ۲٫۷۳ ۳٫۴۹ ۴٫۵۹ ۵٫۵۳ ۷٫۳۴ ۹٫۵۲ ۱۱٫۰۳ ۱۳٫۳۶ ۱۵٫۵۱ ۲۰٫۰۹ ۲۶٫۱۲
۹ ۳٫۳۲ ۴٫۱۷ ۵٫۳۸ ۶٫۳۹ ۸٫۳۴ ۱۰٫۶۶ ۱۲٫۲۴ ۱۴٫۶۸ ۱۶٫۹۲ ۲۱٫۶۷ ۲۷٫۸۸
۱۰ ۳٫۹۴ ۴٫۸۷ ۶٫۱۸ ۷٫۲۷ ۹٫۳۴ ۱۱٫۷۸ ۱۳٫۴۴ ۱۵٫۹۹ ۱۸٫۳۱ ۲۳٫۲۱ ۲۹٫۵۹
مقدار p (احتمال) ۰٫۹۵ ۰٫۹۰ ۰٫۸۰ ۰٫۷۰ ۰٫۵۰ ۰٫۳۰ ۰٫۲۰ ۰٫۱۰ ۰٫۰۵ ۰٫۰۱ ۰٫۰۰۱
این مقادیر را می‌توان با ارزیابی عملکرد کمی (همچنین به عنوان "CDF معکوس" یا "ICDF" شناخته می‌شود) از توزیع کای-اسکور محاسبه کرد. ، ICDF χ۲ برای p = ۰٫۰۵ و df = ۷ بازده ۱۴٫۰۶۷۱۴ ≈ ۱۴٫۰۷ را نشان می‌دهد مانند جدول بالا.

منابعویرایش

  1. «توزیع خی‌دو» [آمار، ریاضی] هم‌ارزِ «chi square distribution»؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر ششم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۹۶۴-۷۵۳۱-۸۵-۶ (ذیل سرواژهٔ توزیع خی‌دو)
  2. NIST (2006). Engineering Statistics Handbook - Chi-Square Distribution
  3. Jonhson, ‎N.L. (1994), Continuous Univariate Distributions (Second Ed. , Vol. 1, Chapter 18), S. Kotz, , N. Balakrishnan, John Willey and Sons, ISBN 0-471-58495-9
  4. Mood, ‎Alexander (1974), Introduction to the Theory of Statistics (Third Edition, p. 241-246), Franklin A. Graybill, Duane C. Boes, McGraw-Hill, ISBN 0-07-042864-6
  5. Chi-Squared Test Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. In turn citing: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed. , Table IV. Two values have been corrected, 7.82 with 7.81 and 4.60 with 4.61