آمار بعدبالا

در نظریه آماری، شاخهٔ آمار بُعدبالا، داده‌هایی را مطالعه می‌کند که بُعد آن‌ها از بُعدهای مطرح شده در تحلیل چندمتغیرهٔ کلاسیک بزرگ‌تر باشد. آمار بُعدبالا متکی بر نظریهٔ بردارهای تصادفی است. در بسیاری کاربردها، بُعد بردارهای داده ممکن است بزرگتر از حجم نمونهٔ آن‌ها باشد.^[۱]

تاریخچه

به‌طور سنتی، آمار استنباطی یک مدل احتمال برای یک جمعیت را در نظر می‌گیرد و داده‌هایی را که به عنوان نمونه از یک جمعیت گرفته می‌شوند را در نظر می‌گیرد. برای بسیاری از مسائل، برآوردهای مشخه‌های جامعه (پارامترها) می‌تواند با افزایش حجم نمونه به سمت بی‌نهایت بهبود یابد (به‌طور نظری). نیازمندهای سنتی سازگاری است، که به همگرایی برآوردگر به مقدار واقعی پارامتر گفته می‌شود.

در سال ۱۹۶۸، آندری کولوموگروف شرایط دیگری را از مسائل آماری و شرایط دیگری برای مسائل مجانبی، که در آن‌ها بُعد متغیرها ( $p$ ) در راستای اندازهٔ نمونه ( $n$ ) افزایش می‌یابد و بنابراین $p/n$ به مقداری ثابت میل می‌کند، مطرح کرد. این شرایط «مسائل مجانبی افزایش بُعد» یا «مسائل مجانبی کولوموگروف»^[۲] نامیده شد. رویکرد کولوموگروف ایزوله‌کردن بسیاری از عبارت‌های احتمال خطا و اندازه‌های استانداردِ کیفیت برآوردگرها (توابع کیفیت) را برای شرایط « $p$ بزرگ و $n$ کوچک» ممکن ساخت. اخیراً، محققان به ابعاد حتی بزرگ‌تر از قبل علاقه‌مند شده‌اند، برای نمونه $p=O(\exp(n^{\alpha }))$ ، که در آن $0<\alpha <1$ است. این موارد، از نیاز به استخراج اطلاعات معنی‌دار از نواحی مختلف بروز می‌کند. در این موارد بعضی نتایج جالب یافت شده‌اند. برای مثال آزمون تی-استیودنت، هنگامی که $p\gg \exp(n^{1/2})$ ممکن است غلط باشد.^[۳] برای اطلاعات بیشتر en:Šidák_correction_for_t-test را ببینید.

نظریهٔ ریاضی

بررسی‌های ریاضی گسترده‌ای انجام شده‌است که منجر به‌وجود آمدن نظریهٔ سیستماتیک برای بهبود نسخه‌های غیرقابل بهبود فرایندهای آماری چندمتغیره شدند. (مرجع^[۴] را ببینید).کشف شد که که پارامتر ویژهٔ $G$ که یک تابع از گشتاور چهارم متغیرهاست، این ویژگی را داراست که مقادیر پایین $G$ تعدادی از پدیده‌های چندپارامتری را تولید می‌کند. برای $n$ و $p$ در حال افزایش، به‌طوری که $p/n$ به یک مقدار ثابت میل کند و $G\rightarrow 0$ ، جملات اساسی چرخش توابع ناوردا در اثبات آماری رخ می‌هد تا تنها از دو گشتاور اول متغیر مستقل باشد. تحت شرایطی که $p$ و $n$ به بی‌نهایت میل می‌کنند، $p/n\rightarrow y>0$ و $G\rightarrow 0$ ، این توابع واریانس و کوواریانس محوشونده در یک مقدار ثابت را دارند که نشان‌دهندهٔ مقدار حدی میانگین و واریانس تجربی است. به‌عنوان نتیجه، برخی روابط انتگرالی پایدار بین توابع و پارامترها و توابع متغیرهای قابل مشاهده تولید شده‌اند. آن‌ها «معادلات متعارف تصادفی» یا «معادلات پراکندگی» نامیده می‌شوند.^[۵] با استفاده از آن‌ها، می‌توان قسمت‌های اصولی توابع کیفی استاندارد آمار چندمتغیره منظم را به‌عنوان توابعی از متغیرهایی که تنها مشاهده شده‌اند، بیان کرد. این مسئله قابلیت انتخاب فرایندهای بهتر و پیدا کردن راه‌حل‌های به‌طور مجانبی غیرقابل بهبود را فراهم می‌سازد.

تحولات جاری

آمار بُعدبالا موضوع تمرکز بسیاری از سمینارها و همایش‌هاست.^[۶]^[۷]^[۸]^[۹]

یادداشت

↑ Marozzi, Marco (2015). "Multivariate multidistance tests for high-dimensional low sample size case-control studies". Statistics in Medicine. 34: 1511–1526. doi:10.1002/sim.6418.
↑ S. A. Aivasian, V. M. Buchstaber, I. S. Yenyukov, L. D. Meshalkin. Applied Statistics. Classification and Reduction of Dimensionality. Moscow, 1989 (in Russian).
↑ Fan, Jianqing; Hall, Peter; Yao, Qiwei (2007). "To How Many Simultaneous Hypothesis Tests Can Normal, Student's t or Bootstrap Calibration Be Applied". Journal of the American Statistical Association. 102 (480): 1282–1288. arXiv:math/0701003. doi:10.1198/016214507000000969.
↑ http://hd-stat.narod.ru 'HIGH-DIMENSIONAL (HD-) STATISTICS'.
↑ V.L.Girko. Canonical Stochastic Equations, vol. 1,2, Kluwer Academic Publishers, Dordrecht, 2000.
↑ Program on High-Dimensional Inference for 2006-2007. SAMSI, USA.
↑ Workshop in High-Dimensional Data Analysis, National University of Singapore. February, 2008.
↑ Workshops HD-statistics in biology, Isaac Newton Inst. for Math. Sci. , Cambridge. 31.03-27.06 2008.
↑ Young European Statistics Workshop (YES-2), Eindhoven, Netherland. June, 2008.

منابع

Christophe Giraud (2015). Introduction to High-Dimensional Statistics. Philadelphia: Chapman and Hall/CRC.
T. Tony Cai, Xiaotong Shen, ed. (2011). High-dimensional data analysis. Frontiers of Statistics. Singapore: World Scientific.
Peter Bühlmann and Sara van de Geer (2011). Statistics for high-dimensional data: methods, theory and applications. Heidelberg; New York: Springer.

[1] Marozzi, Marco (2015). "Multivariate multidistance tests for high-dimensional low sample size case-control studies". Statistics in Medicine. 34: 1511–1526. doi:10.1002/sim.6418.

[2] S. A. Aivasian, V. M. Buchstaber, I. S. Yenyukov, L. D. Meshalkin. Applied Statistics. Classification and Reduction of Dimensionality. Moscow, 1989 (in Russian).

[3] Fan, Jianqing; Hall, Peter; Yao, Qiwei (2007). "To How Many Simultaneous Hypothesis Tests Can Normal, Student's t or Bootstrap Calibration Be Applied". Journal of the American Statistical Association. 102 (480): 1282–1288. arXiv:math/0701003. doi:10.1198/016214507000000969.

[4] ttp://hd-stat.narod.ru 'HIGH-DIMENSIONAL (HD-) STATISTICS'.

[5] V.L.Girko. Canonical Stochastic Equations, vol. 1,2, Kluwer Academic Publishers, Dordrecht, 2000.

[6] Program on High-Dimensional Inference for 2006-2007. SAMSI, USA.

[7] Workshop in High-Dimensional Data Analysis, National University of Singapore. February, 2008.

[8] Workshops HD-statistics in biology, Isaac Newton Inst. for Math. Sci. , Cambridge. 31.03-27.06 2008.

[9] Young European Statistics Workshop (YES-2), Eindhoven, Netherland. June, 2008.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]