هیستوگرام: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
جز ربات ردهٔ همسنگ (۳۰.۱) +نشانی+املا+مرتب (۱۴.۹ core): + ۵ رده |
Yamaha5Bot (بحث | مشارکتها) جز v1.43b - پروژهٔ چکویکی (عدم رعایت سلسله مراتب در زیربخشها) برچسب: WPCleaner |
||
خط ۲۲:
حالتهای مختلفی برای تعیین بازهها وجود دارد که هرکدام ویژگیهای مختلفی از داده را آشکار میکنند لذا بر هم برتری ندارند. هرچه طول بازهها بیشتر باشد، تراکم نقاط کمتر میشود و نویز ناشی از نمونهگیری تصادفی را کاهش میدهد. از طرف دیگر هرچه طول بازهها کمتر باشد، تخمین بهتری از توزیع میتوان پیدا کرد. بعضی تلاش کردهاند تا مقداری بهینه برای تعداد بازهها بیابند ولی این روشها معمولاً شامل فرضی قوی روی توزیعاند. با توجه به توزیع واقعی دادهها و اهداف تحلیل آنها، مقدار متفاوتی برای طول بازهها مناسب خواهدبود.<ref>{{یادکرد کتاب|نشانی=https://www.worldcat.org/oclc/49312402|عنوان=Modern applied statistics with S|نام خانوادگی=N.)|نام=Venables, W. N. (William|شابک=0387954570|ویرایش=4th ed|مکان=New York|oclc=49312402}}</ref>
{{چپچین}}
<math>k = \lceil\sqrt n\rceil</math><ref>{{یادکرد وب|وبگاه=cameron.econ.ucdavis.edu|نشانی=http://cameron.econ.ucdavis.edu/excel/ex11histogram.html|عنوان=EXCEL Univariate: Histogram|بازبینی=2018-12-27}}</ref>
{{پایان چپچین}}
برای استفاده از فرمول استرجس دادهها باید توزیع تقریباً نرمال داشته باشند. معمولاً این فرمول در حالتی که <math>n < 30</math>باشد یا توزیع دادهها نرمال نباشد، کاربردی ندارد.<ref>{{یادکرد وب|نویسنده=Sturges, H. A.|کد زبان=|تاریخ=1926|وبگاه=www.tandfonline.com|نشانی=https://www.tandfonline.com/action/captchaChallenge?redirectUri=/doi/abs/10.1080/01621459.1926.10502161&|ژورنال=Journal of the American Statistical Association|صفحات=65–66|عنوان=The choice of a class interval|doi=10.1080/01621459.1926.10502161|بازبینی=2018-12-27}}</ref>
{{چپچین}}
خط ۳۲:
{{پایان چپچین}}
{{چپچین}}
<math>k = \lceil2\sqrt[3]{n}\rceil</math><ref>{{یادکرد وب|نویسنده=|کد زبان=|تاریخ=|وبگاه=onlinestatbook.com|نشانی=http://onlinestatbook.com/|فصل="Graphing Distributions"|عنوان=Online Statistics Education: A Multimedia Course of Study|بازبینی=2018-12-27}}</ref>
{{پایان چپچین}}
فرمول دوآن بهبودیافتهی فرمول استرجس است که کابرد فرمول استرجس را برای دادههای غیرنرمال افزایش دادهاست.
{{چپچین}}
خط ۴۵:
<math>\sigma_{g_1} = \sqrt\frac{6(n-2)}{(n+1)(n+3)}</math><ref>{{یادکرد ژورنال|نویسنده=Doane DP|عنوان=Aesthetic frequency classification|ژورنال=American Statistician|شماره=30|ناشر=|تاریخ=1976|صفحه=181 - 183|زبان=|شاپا=|doi=|پیوند=|تاریخ دسترسی=}}</ref>
{{پایان چپچین}}
{{چپچین}}
<math>h = \frac{3.5\widehat{\sigma}}{\sqrt[3]n}</math>
خط ۵۲:
که <math>\widehat{\sigma}</math>انحراف معیار دادهها و <math>h</math> طول بازه است.<ref>{{یادکرد کتاب|عنوان=Multivariate Density Estimation: Theory, Practice, and Visualization|نام خانوادگی=Scott|نام=David. W.|ناشر=|سال=1992|شابک=|مکان=|صفحات=}}</ref> قانون اسکات برای دادههای با توزیع نرمال بهینه است و [[خطای میانگین مربعات]] تخمین چگالی را کمینه میکند.<ref>{{Cite journal|last=Scott|first=David W.|date=1979-12-01|title=On optimal and data-based histograms|url=https://academic.oup.com/biomet/article/66/3/605/232642|journal=Biometrika|language=en|volume=66|issue=3|pages=605–610|doi=10.1093/biomet/66.3.605|issn=0006-3444}}</ref>
{{چپچین}}
<math>h = \frac{2IQR(x)}{\sqrt[3]n}</math>
خط ۵۸:
که IQR، [[دامنه بین چارکی]] دادههاست.<ref>{{Cite journal|last=Diaconis|first=Persi|last2=Freedman|first2=David|date=1981-12-01|title=On the histogram as a density estimator:L2 theory|url=https://link.springer.com/article/10.1007/BF01025868|journal=Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete|language=en|volume=57|issue=4|pages=453–476|doi=10.1007/BF01025868|issn=1432-2064}}</ref>
این قانون براساس کمینه کردن تخمین <math>L^2</math>تابع هزینه است که در آن <math>\bar{m}</math>میانگین دادهها و <math>v</math>واریانس اریب دادههاست.
{{چپچین}}
|