برآورد چگالی

در آمار و احتمال، برآورد چگالی (به انگلیسی: Density estimation) به فرایند تخمین تابع چگالی احتمال یک متغیر تصادفی با استفاده از نمونه‌های مشاهده‌شده از آن متغیر گفته‌می‌شود. معمولاً فرض می‌شود نمونه‌های مشاهده شده به‌طور تصادفی و مستقل براساس تابع توزیع احتمال، توزیع شده‌اند.

نمایش برآورد تابع چگالی احتمال به شیوه‌ای ناپارامتری توسط هموارکردن به کمک هسته‌ها: توزیع حقیقی مخلوط دو توزیع نرمال است به مرکزیت ۰ و ۳ که با نمودار آبی‌رنگ نشان داده‌شده‌است. در هر فریم تصویر، ۱۰۰ نمونه از این توزیع تولید شده‌اند که با رنگ قرمز نشان داده‌شده‌اند. به مرکزیت هر نمونه، یک هسته گاوسی به رنگ خاکستری ترسیم شده‌است. میانگین این هسته‌ها تخمین تابع چگالی را نشان می‌دهد که با نمودار سیاه نشان‌داده شده‌است. برای نمایش بهتر، هسته‌های گاوسی حول هر نمونه کوچک‌تر از اندازه واقعی نشان‌داده‌شده‌اند.^[۱]

برای حل مسئله برآورد چگالی، روش‌های مختلفی استفاده شده‌است، از جمله پنجره پارزن (به انگلیسی: Parzen Window) و تعدادی روش‌های مبتنی بر دسته‌بندی داده، از جمله کوانتیزاسیون برداری. ساده‌ترین روش برای برآورد چگالی، استفاده از یک بافت‌نگاشت تغییر مقیاس یافته‌است.

مثالی از برآورد چگالی

در این مثال نمونه‌های مربوط به بیماری دیابت را بررسی می‌کنیم. در زیر توضیحات مربوط به مجموعه داده آورده شده‌است:

چگالی برآورد شده برایp (glu | diabetes=1) (قرمز) p (glu | diabetes=0) (آبی) p (glu) (سیاه)

احتمال برآورد شده برایp(diabetes=1 | glu)

احتمال برآورد شده برای p (diabetes=1 | glu)

جمعیتی از زنان بالای ۲۰ سال از پیما که در Phoenix, Arizona زندگی می‌کردند، با شاخص سازمان جهانی بهداشت مورد ارزیابی دیابت شیرین قرار گرفتند. داده‌ها توسط مؤسسه ملی بیماری‌های دیابتی و گوارشی و کلیوی آمریکا (US National Institute of Diabetes and Digestive and Kidney Diseases) جمع‌آوری شده‌است. ما از ۵۳۲ نمونه استفاده کردیم.^[۲]^[۳]

در این مثال، ما ۳ برآورد چگالی برای "glu" (با تمرکز بر روی گلوکز پلاسما (به انگلیسی: plasma glucose)) انجام دادیم. یکی از آنها احتمال شرطی به شرط مبتلا بودن به دیابت، دومی به شرط مبتلا نبودن به دیابت و سومی بدون شرطی روی داشتن یا نداشتن دیابت است. سپس از برآوردهایی که برای احتمالات شرطی به دست آمد استفاده شد تا احتمال ابتلا به دیابت به شرط "glu" بدست بیاید.

داده‌های مربوط به "glu" از پکیچ MASS^[۴] موجود در زبان برنامه‌نویسی آر بدست آمد. داده‌ها به‌طور کامل تر از طریق Pima.tr? و Pima.te? در زبان آر، قابل دسترسی است.

میانگین و انحراف معیار "glu" در کیس‌های مبتلا به دیابت به ترتیب برابر ۱۴۳٫۱ و ۳۱٫۲۶ است. در کیس‌های بدون دیابت، این مقادیر به ترتیب برابر ۱۱۰٫۰ و ۲۴٫۲۹ است. با توجه به این مقادیر، می‌توان دریافت که نمونه‌های مبتلا به دیابت دارای مقادیر بالاتری از "glu" هستند. این نکته با بررسی نمودارهای برآورد شده از توابع چگالی قابل فهم تر است.

شکل اول برآورد چگالی از احتمالات p(glu | diabetes=۱) و p(glu | diabetes=۰) و p(glu) را نشان می‌دهد. چگالی‌های برآورد شده، برآوردهای چگالی هسته هستند که با استفاده از هستهٔ گاوسی به دست آمده‌اند. به بیان دیگر، یک تابع چگالی گاوسی بر روی هر نقطه از داده قرار داده شده‌است، به طوری که مرکز تابع چگالی نقطه مدنظر باشد، سپس مجموع توابع چگالی روی گستره داده‌ها محاسبه شده‌است.

از چگالی "glu" در حالت مشروط به دیابت (احتمال مربوط به p(glu | diabetes=۱))، می‌توانیم با استفاده از قانون بیز، احتمال دیابت داشتن مشروط به "glu" را محاسبه کنیم. برای اختصار عبارت "db" به جای "diabetes" در فرمول زیر نوشته شده‌است:

$p({\mbox{diabetes}}=1|{\mbox{glu}})={\frac {p({\mbox{glu}}|{\mbox{db.}}=1)\,p({\mbox{db.}}=1)}{p({\mbox{glu}}|{\mbox{db.}}=1)\,p({\mbox{db.}}=1)+p({\mbox{glu}}|{\mbox{db.}}=0)\,p({\mbox{db.}}=0)}}$

شکل دوم احتمال پسین p(diabetes=1 | glu) برآورد شده را نشان می‌دهد. از این داده‌ها، پیداست که افزایش مقادیر "glu"، ارتباط مستقیمی با ابتلا به دیابت دارد

کاربرد و اهداف

یک کاربرد معمول برآورد چگالی، بررسی شهودی (و نه لزوماً خیلی دقیق) ویژگی‌های مختلف یک مجموعه داده‌است. برآورد چگالی می‌تواند اطلاعات ارزشمندی از داده‌ها از جمله چولگی و چندوجهی بودن بدهد. در برخی مواقع استفاده از برآورد چگالی ممکن است منجر به دریافت بدست آوردن نتایجی شود که بعضاً بدیهی تلقی می‌شوند، اما در برخی دیگر از مواقع، می‌توانند مشخص کنند که نیاز به جمع‌آوری بیشتر داده‌است.^[۵]

یک جنبهٔ مهم از علم آمار معمولاً ارائه داده‌ها به همراه نتایج حاصل از بررسی روی آن‌ها به مشتری است و لازم است که این ارائه به گونهٔ ساده و قابل فهمی برای مشتری باشد. برآورد چگالی برای این هدف بسیار مناسب است، چرا که بسیار ساده و قابل درک برای افراد نه لزوماً حرفه ای در علم ریاضی و آمار است.

برآورد چگالی همچنین مکرراً در مبحث تشخیص ناهنجاری استفاده می‌شود: اگر یکی از مشاهدات در ناحیه‌ای کم-چگال قرار بگیرد، محتمل است که این نمونه ناهنجار باشد.^[۶]

در آب‌شناسی، از بافت نگاشت و تابع چگالی برآورد شده از داده‌های مربوط به بارش باران و دبی رودخانه که با یک توزیع احتمالی مورد تجزیه و تحلیل قرار گرفته‌اند، استفاده می‌شود تا رفتار و تناوب رخداد آن‌ها بهتر شناخته شود.^[۷] مثالی در شکل آبی از این کاربرد نشان داده شده‌است:

بافت نگاشت و تابع چگالی برای یک توزیع گامبل^[۸]

منابع

↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۰۸–۲۰۹. Archived from the original on 10 November 2009. Retrieved 31 December 2012.
↑ "Diabetes in Pima Indian Women - R documentation".
↑ Smith, J. W. , Everhart, J. E. , Dickson, W. C. , Knowler, W. C. and Johannes, R. S. (1988). R. A. Greenes (ed.). "Using the ADAP learning algorithm to forecast the onset of diabetes mellitus". Proceedings of the Symposium on Computer Applications in Medical Care (Washington, 1988). Los Alamitos, CA: 261–265. PMC 2245318.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
↑ Ripley, Brian; Venables, Bill; Bates, Douglas M.; ca 1998), Kurt Hornik (partial port; ca 1998), Albrecht Gebhardt (partial port; Firth, David (2022-08-03), MASS: Support Functions and Datasets for Venables and Ripley's MASS, retrieved 2022-12-30
↑ Silverman، B. W. (۱۹۸۶). Density Estimation for Statistics and Data Analysis. شابک ۹۷۸-۰۴۱۲۲۴۶۲۰۳.
↑ Pimentel, Marco A. F.; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2014-06-01). "A review of novelty detection". Signal Processing (به انگلیسی). 99: 215–249. doi:10.1016/j.sigpro.2013.12.026. ISSN 0165-1684.
↑ «CumFreq, free calculator, probability density function histogram». www.waterlog.info. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ «CumFreq, distribution fitting of probability, free calculator». www.waterlog.info. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[1] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۰۸–۲۰۹. Archived from the original on 10 November 2009. Retrieved 31 December 2012.

[2] "Diabetes in Pima Indian Women - R documentation".

[3] Smith, J. W. , Everhart, J. E. , Dickson, W. C. , Knowler, W. C. and Johannes, R. S. (1988). R. A. Greenes (ed.). "Using the ADAP learning algorithm to forecast the onset of diabetes mellitus". Proceedings of the Symposium on Computer Applications in Medical Care (Washington, 1988). Los Alamitos, CA: 261–265. PMC 2245318.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[4] Ripley, Brian; Venables, Bill; Bates, Douglas M.; ca 1998), Kurt Hornik (partial port; ca 1998), Albrecht Gebhardt (partial port; Firth, David (2022-08-03), MASS: Support Functions and Datasets for Venables and Ripley's MASS, retrieved 2022-12-30

[5] Silverman، B. W. (۱۹۸۶). Density Estimation for Statistics and Data Analysis. شابک ۹۷۸-۰۴۱۲۲۴۶۲۰۳.

[6] Pimentel, Marco A. F.; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2014-06-01). "A review of novelty detection". Signal Processing (به انگلیسی). 99: 215–249. doi:10.1016/j.sigpro.2013.12.026. ISSN 0165-1684.

[7] «CumFreq, free calculator, probability density function histogram». www.waterlog.info. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[8] «CumFreq, distribution fitting of probability, free calculator». www.waterlog.info. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]