میزان کشف اشتباه

میزان کشف اشتباه یک روش برای بررسی میزان خطای نوع اول در آزمون فرض‌های همزمان است، که در آن‌ها سطح معنی‌داری تفاوت آماره‌های مختلف در تعداد زیادی آزمون مشابه همزمان سنجیده می‌شود. میزان کشف اشتباه در واقع یک معیار آزادانه‌تر نسبت به میزان خطای خانوادگی (family-wise error rate) است و نشان‌دهندهٔ نسبت فرض‌های واقعاً صفری که توسط آزمون‌ها رد می‌شوند به تمام فرضهایی که توسط آزمون‌ها رد می‌شوند، است .(منظور از کشف در اینجا فرض صفر رد شده‌است) می‌توان نشان داد که در مجموع کنترل این معیار نسبت به کنترل میزان خطای خانوادگی توان آماری بالاتری بدست می‌دهد.

پیشینه

مقدمه

از دهه آخر قرن بیستم، محاسبات الکترونیکی به تنها ابزار برای پیش‌برد تبدیل شد. تقریباً تمامی کاربردهای آمار توسط مجموعه ای از پلتفورم‌های کامپیوتری اجرا می‌شدند. ابزارهایی مانند SAS, SPSS, Minitab, Matlab, S، و بعدها R.

این روند از ابتدای قرن بیست و یکم سرعت گرفت و ابزارهای آماری بیشتر و کاراتر برای تحلیل حجم عظیم داده‌ها ابداع شد. این پیشرفت سریع در واقع مانند دو جنبه داشت، از طرفی ابداع روزافزون روش‌های آماری که به دنبال مجموعه داده‌های بزرگتر بودند و از طرفی تلاش برای نگه داشتن بنیان‌های علمی آمار و تصحیح روش‌های نوین.

برای بسیاری از آماردان‌ها، میکروآرایه‌ها برای اولین بار به عنوان نمونه ای از داده‌های بزرگ-مقیاس مطرح شدند. تکنولوژی میکروآرایه که در واقع یک انقلاب در ابزارهای زیست-پزشکی نوین در اواخر قرن بیستم بود، بررسی فعالیت هزاران ژن را در یک آزمایش ممکن می‌ساخت. با این امکان، نیاز به انجام هزاران آزمون فرض همزمان ایجاد شد. آزمون‌هایی که در نهایت بنا است تا تعداد محدودی از ژن‌ها را به عنوان ژن‌های تأثیرگذار (و با میزان بیان معنی‌دار-متفاوت در گروه تحت آزمون) معرفی کنند.

با رایج شدن تکنولوژی‌های پرتوان، محدودیت‌های فنی یا مالی محققین را مجبور می‌کرد که مجموعه‌داده‌های با تعداد کم نمونه (برای مثال تعداد کم افراد تحت آزمایش) و برای هر نمونه تعداد زیادی متغیر (برای مثلاً هزاران سطح بیان ژنی) جمع‌آوری کنند. در این مجموعه‌داده‌ها، با استفاده از روش‌های کلاسیک تعداد بسیار کمی از متغیرهای اندازه‌گیری‌شده سطح معنی داری آماری بالایی نشان می‌دادند. این چالش در بسیاری از جوامع علمی نیاز به روشی جایگزین را برای معیار میزان خطای خانوادگی و آزمون‌های فرض هم‌زمان تصحیح نشده ایجاد کرد. تا پیش از آن از این روش‌ها به منظور تعیین و رتبه‌بندی متغیرهای تأثیرگذار در مقالات استفاده می‌شد، در حالی که نتایج به دست آمده از این روش‌ها با واقعیت فاصله زیادی داشتند. برای حل این مسئله معیارهای مختلفی پیشنهاد شد که از برخی از آن‌ها در مقالات هم استفاده می‌شد. این معیارها نسبت به میزان خطای خانوادگی آزادانه‌تر عمل کردند.

مقالات

میزان کشف اشتباه در سال ۱۹۹۵ توسط بنجامینی و هوشبرگ به عنوان یک روش آزادانه‌تر و مسلماً مناسب‌تر در حل این مسئله معرفی شد. معرفی میزان کشف اشتباه یک اتفاق بسیار مهم در این رشته بود، زیرا برای اولین بار به عنوان جایگزین مناسبی برای میزان خطای خانوادگی به خصوص در علوم طبیعی مانند ژنتیک، بیوشیمی و علوم گیاهی شناخته شد. در سال ۲۰۰۵، مقالهٔ بنجامینی و هوشبرگ به عنوان یکی از ۲۵ پرارجاع‌ترین مقالات در زمینهٔ شناخته‌شد.[۱]

پیش از معرفی میزان کشف اشتباه در سال ۱۹۹۵ ایده‌های متنوعی مد نظر آماردانان بود. در سال ۱۹۷۹، هولم رویهٔ هولم را پیشنهاد کرد،[۲] یک الگوریتم گام به گام برای کنترل کردن میزان خطای خانوادگی که حداقل به اندازهٔ رویهٔ اصلاح بونفرونی دارای توان آماری بود. این الگوریتم گام به گام پی-مقدارها را مرتب می‌کند و به ترتیب فرض‌های صفر را با شروع از کوچکترین پی-مقدار رد می‌کند.

بنجامینی در سال ۲۰۱۰ گفت میزان کشف خطا و مقاله‌اش با هوشبرگ در سال ۱۹۹۵ از دو مقاله با موضوع آزمون‌های هم‌زمان منشأ گرفته‌است:

  • اولین مقاله توسط شودر و اسپیوتول در سال ۱۹۸۲[۳] که تصویر کردن پی-مقدارهای مرتب‌شده و سپس ارزیابی تعداد فرض‌های صفر ( ) درست از طرق برازش خط به صورت چشمی، با شروع از بزرگ‌ترین پی-مقدارها را پیشنهاد می‌کرد. این ایده بعدها به یک الگوریتم تعمیم پیدا کرد و به این صورت بود که تخمین   به کمک روش‌هایی مانند بونفرونی، هولم یا هوشبرگ انجام می‌شد.[۴] این ایده بسیار شبیه تفسیر گرافیکی روش بنجامینی-هوشبرگ است.
  • مقاله دوم کاری از سوریک در ۱۹۸۹ بود[۵] که کلمهٔ کشف را برای اولین بار در زمینهٔ آزمون فرض‌های همزمان به کار برد. سوریک از امید ریاضی تعداد کشف‌های اشتباه   استفاده کرده بود و ایده اصلی‌اش این بود که «بسیاری از اکتشافات آمار ممکن است غلط باشند». این ایده بنجامینی و هوشبرگ را به سمت یک میزان خطای مشابه هدایت کرد.

رویهٔ بنجامینی-هوشبرگ در مقاله آن‌ها در سال ۱۹۹۵ ثابت شد. در سال ۱۹۸۶، سیمِس همان رویه را تحت عنوان رویهٔ سیمس پیشنهاد کرد. این رویه می‌تواند میزان خطای خانوادگی را در حالت ضعیف، زمانی که آماره‌ها مستقل هستند، کنترل کند.[۶] در سال ۱۹۸۸، هومل نشان داد که روی سیمس میزان خطای خانوادگی را در حالت قوی آن کنترل نمی‌کند.[۷] بر اساس رویهٔ سیمس، هوشبرگ رویهٔ هوشبرگ را در سال ۱۹۸۸ پیشنهاد کرد که می‌توانست میزان خطای خانوادگی را رد حالت قوی و زمانی که مفروضاتی برای وابستگی آماره‌ها وجود داشت، کنترل کند.[۸]

تعاریف

بر اساس تعاریف زیر می‌توان   را به عنوان نسبت از اکتشافات اشتباه به تمام اکتشافات تعریف کرد:

 .

حال میزان کشف اشتباه را می‌توان این‌گونه تعریف کرد:

 

که در آن   زمانی که   برابر ۰ می‌شود. می‌خواهیم میزان کشف خطا را کمتر از یک حد   نگه داریم.

روش‌های کنترل

تنظیمات برای بسیاری از روش‌ها به گونه است که ما   فرض صفر تحت آزمون داریم که   پی-مقدارهای مربوط به هر آزمون است. ما این پی-مقدارها را از کوچک به بزرگ مرتب می‌کنیم و ترتیب جدید را   نام‌گذاری می‌کنیم. یک روش که از یک پی-مقدار کوچک به یک مقدار بزرگ می‌رود را روش بالا-گام می‌نامیم. روش پایین-گام هم به همین نحو تعریف می‌شود.

روش بنجامینی-هوشبرگ

روش بنجامینی-هوشبرگ (که یک روش بالا-گام است)، میزان کشف اشتباه را در سطح نگه می‌دارد. این روش این‌گونه عمل می‌کند:

  1. برای یک   داده‌شده، k را پیدا کن که 
  2. تمام فرض صفرهای  برای   را رد کن.

به لحاظ هندسی، این روش معادل این است که   را نسبت به K رسم کنیم، یک خط از مبدأ با شیب   بکشیم و تمام فرض‌های صفر که بالای خط قرار می‌گیرند را رد کنیم.

روش بنجامینی-هوشبرگ زمانی که m آزمون مستقل و همچنین در بسیاری از سناریوهای شامل وابستگی معتبر است. به علاوه نامساوی زیر نیز ارضا می‌شود:

 

اگر تخمینی از   در روش بنجامینی-هوشبرگ قرار داده شود، دیگر نمی‌توان تضمین کرد که میزان کشف اشتباه در سطح مورد نظر کنترل شود. ممکن است تصحیح‌هایی برای تخمین‌گر مورد نیاز باشد و برای این هم رویکردهای مختلفی پیشنهاد شده‌اند.[۹][۱۰][۱۱][۱۲]

توجه داشته باشید که میانگین   برای این m آزمون برابر  ، میانگین(FDR  ) یا MFDR، است. به گونه‌ای که   برای m آزمون مستقل (و یا دارای همبستگی مثبت) تنظیم شده‌است. محاسبه MFDR که در اینجا نشان‌داده خواهد شد، تنها برای یک مقدار است و قسمتی از روش بنجامینی و هوشبرگ نیست. (AFDR را در پایین ببینید)

روش بنجامینی-هوشبرگ-یکوتیلی

روش بنجامینی-هوشبرگ-یکوتیکلی میزان کشف اشتباه را تحت فرض همبستگی مثبت کنترل می‌کند.[۱۳] این فرض، آستانه را اصلاح می‌کند و بزرگترین k را این‌گونه میابد که: 

  • اگر آزمون‌ها از هم مستقل یا همبستهٔ مثبت باشند قرار می‌دهیم:
  •  
  • در صورت وجود همبستگی منفی   را می‌توان با استفاده از ثابت اویل-ماسکرونی تقریب زد:
  •  

با استفاده از MFDR و فرمول‌های بالا، یک MFDR تصحیح شده، یا AFDR، برای m آزمون مستقل برابر است با  .

راه دیگر برای حل مسئله وابستگی استفاده از روش‌های بوت استرپ و تصادفی‌سازی است.

تخمین میزان کشف اشتباه

فرض کنید  نسبت تمام فرضهای صفر صحیح به تمام فرض‌ها باشد و بنابراین   نسبت تمام فرض‌های ناصفر درست خواهد بود. حال ضرب  در میانگین پی-مقدارهای فرضهای رد شده تقسیم بر تعداد فرضهای رد شده تخمینی از میزان کشف اشتباه را بدست می‌دهد.[نیازمند شفاف‌سازی]

ویژگی‌ها

تطبیقی و مقیاس‌پذیر

استفاده از روشی که از معیار میزان کشف اشتباه استفاده می‌کند تطبیقی و مقیاس‌پذیر است. به این معنی که کنترل کردن میزان کشف خطا می‌تواند بسیار آزادانه یا سخت‌گیرانه عمل کند، بسته به تعداد فرض‌های تحت آزمون و سطح معنی داری.

معیار میزان کشف تطبیق پیدا می‌کند به گونه‌ای که تعداد کشف‌های اشتباه (V) نسبت به کل کشف‌ها (R) سنجیده‌می‌شود. این مورد برعکس میزان خطای خانوادگی است. برای مثال اگر ۱۰۰ فرض برای ۱۰۰ جهش ژنتیکی نقطه‌ای برای یافتن رابطه با رخ‌نمود مدنظر باشد:* اگر ما ۴ کشف (R) انجام دهیم، داشتن دو کشف غلط (V) بسیار هزینه‌بر است. در حالی که، * اگر ۵۰ اکتشاف انجام دهیم و ۲ تا از آن‌ها غلط باشند هزینهٔ ما چندان زیاد نیست.

معیار میزان کشف اشتباه مقیاس‌پذیر است به گونه‌ای که نسبت کشف‌های اشتباه به کل کشف‌ها (Q)، برای مقادیر مختلف کل کشف‌ها (R)، معقول باقی می‌ماند.

برای مثال:

  • اگر ما ۱۰۰ کشف انجام دهیم و ۵ تا از آن‌ها کشف غلط باشند ( ) ما هزینهٔ زیادی را پرداخت نخواهیم کرد.
  • به‌طور مشابه، اگر ما ۱۰۰۰ کشف را انجام دهیم، و ۵۰ کشف اشتباه رخ دهد، هم‌چنان هزینهٔ ما همان ۵ درصد خطا است.

معیار میزان کشف خطا در حالتی که یک تصحیح را روی مجموعه‌ای از فرض‌ها انجام می‌دهد، یا دو تصحیح را زمانی انجام می‌دهد که مجموعه به دو بخش تقسیم شده‌است تفاوتی ندارد، به نحوی که در هر دو حالت نحوه عملکرد تصحیح یکسان است.

وابستگی آماره‌های آزمون

کنترل میزان کشف اشتباه با استفاده از روش بنجامینی-هوشبرگ گام-بالا خطی در سطح q، ویژگی‌های مختلفی مرتبط با ساختار وابستگی بین آماره‌های آزمون m فرض صفر دارد. در هر یک از شرایط زیر برای آماره‌های آزمون داریم:

  • مستقل:  
  • مستقل و پیوسته:  
  • مثبت وابسته:  
  • در حالت کلی:   که در آن   ثابت اویلر–ماسکرونی است.

نسبت فرض‌های درست

اگر تمام فرض‌های صفر درست باشند ( )، کنترل میزان کشف اشتباه در سطح q کنترل روی میزان خطای خانوادگی را تضمین می‌کند (به این استفاده «کنترل ضعیف میزان خطای خانوادگی هم می‌گویند):   فقط به خاطر این‌که رد کردن حداقل یکی از فرض‌های صفر درست   دقیقاً معادل    دقیقاً معادل   ,  ). اما چنانچه تعدادی کشف درست صورت گیرد ( ) خواهیم داشت FWER ≥ FDR. در این حالت جا برای بالابردن توان تشخصی وجود خواهد داشت. این همچنین به این معنا است که هر روشی که میزان خطای خانوادگی را کنترل کند، می‌تواند میزان کشف اشتباه را هم کنترل کند.

مفاهیم مرتبط

میزان‌های خطای مرتبط

پیش و پس از میزان کشف اشتباه، انواع و اقسام میزان‌ها معرفی شدند که برخی از آن‌ها در ادامه آمده‌است:

  • میزان خطای مقایسه ای (PCER) به این صورت تعریف می‌شود که: . آزمودن هر فرض در سطح α می‌تواند تضمین کند که   (این معیار بدون توجه به همزمانی آزمون‌ها تعریف می‌شود)
  • میزان خطای خانوادگی (FWER) تعریف می‌شود . روش‌های بسیار زیادی هستند که این میزان را کنترل می‌کنند.
  • میزان خطای خانوادگی تعمیم یافته ( ) که توسط لهمان، رومانو و همکاران معرفی شد به این صورت تعریف می‌شود که: .
  • میزان کشف اشتباه تعمیم‌یافته که تعریف می‌شود:[۱۴][۱۵] .
  •   نسبت کشف‌های اشتباه بین تمام کشف‌ها است که توسط سوریک در سال ۱۹۸۹ معرفی شد، تعریف می‌شود: . این معیار ترکیبی از امید ریاضی و واقعیت است ولی مشکل کنترل را زمانی که   دارد.
  •   توسط بنجامینی و هوشبرگ استفاده شده بود، بعدها توسط افرون(۲۰۰۸) استفاده شد؛ و این‌گونه تعریف می‌شود که:  . این میزان خطا نمی‌تواند به‌طور دقیق کنترل شود زیرا زمانی که   برابر یک است.
  •   ابتدا توس بنجامینی و هوشبرگ استفاده شد و بعدها در سال ۲۰۰۲ توسط استوری مورد استفاده قرار گرفت. این میزان این‌گونه تعریف می‌شود:  . این میزان خطا نمی‌تواند به‌طور دقیق کنترل شود زیرا زمانی که m = m_0 برابر یک است.
  • میزان ردشدن از حد اشتباه که تعریف می‌شود:[۱۶]  
  •   : که به هر فرض i یک‌وزن   نسبت می‌دهد که نشان‌دهنده اهمیت آن فرض است و این‌گونه تعریف می‌شود:  .
  • میزان هزینهٔ کشف اشتباه :
  • FDCR) که از کنترل فرایند آماری نشئت می‌گیرد، به هر فرض i یک هزینهٔ   نسبت می‌گیرد و فرایند زمانی متوقف می‌شود که هزینه تا به این‌جای کار میزان مشخصی باشد. این میزان اینگونه تعریف می‌شود:
  •  
  • میزان خطای به ازای خانواده
  • PFER: تعریف می‌شود:  .
  • میزان غیر کشف اشتباه (
  • FNR: توسط سارکر و همکاران این‌گونه تعریف شد:  
  •   تعریف می‌شود:  
  •   محلی تعریف می‌شود:  

میزان پوشش اشتباه

میزان پوشش خطا در واقع تعبیری از بازهٔ اطمینان است. میزان پوشش خطا متوسط میزان پوشش اشتباه را نشان می‌دهد. به عبارت دیگر پوششی که پارامترهای صحیح را نمی‌پوشاند. این میزان یک پوشش همزمان در سطح 1-\alpha را برای تمام پارامترهای تحت نظر مسئله بدست می‌دهد. بازه‌هایی با احتمال پوشش ۱−q می‌توانند میزان پوشش خطا را در سطح q نگه دارند. روش‌های زیادی هم برای کنترل این میزان ایجاد شده‌اند.[۱۷]

رویکردهای بیزی

تا کنون برخی دانشمندان تلاش کرده‌اند به گونه‌ای میزان کشف اشتباه را به روش‌های بیزی مرتبط کنند،[۱۸][۱۹][۲۰] از آن برای انتخاب مدل استفاده کنند[۲۱][۲۲][۲۳][۲۴] و بازهٔ اطمینان را به میزان پوشش اشتباه مرتبط کنند.[۲۵]

میزان مثبت اشتباه در تک آزمون‌ها

کولهون در سال ۲۰۱۴[۲۶] از عبارت میزان کشف اشتباه برای تعریف احتمال اینکه یک نتیجهٔ معنی‌دار یک مثبت اشتباه یا (false positive) باشد، استفاده کرد. این نتیجهٔ حاصل یک تحقیق برای پاسخ به این سؤال بود که «چگونه باید پی-مقدار پیدا شده در یک آزمون بی جهت (unbiased) را تفسیر کرد؟». در کارهای بعدی[۲۷][۲۸] کولهون، آن مقدار را میزان مثبت اشتباه (false positive rate) به جای میزان کشف اشتباه خواند تا از ایجاد کژتابی با مفاهیم قبلی جلوگیری کند. روش‌هایی برای کنترل این میزان هم ایجاد شده‌است.

منابع

  1. Ryan, T. P.; Woodall, W. H. (2005). "The most-cited statistical papers". Journal of Applied Statistics. 32 (5): 461. doi:10.1080/02664760500079373.
  2. Holm, S. (1979). "A simple sequentially rejective multiple test procedure". Scandinavian Journal of Statistics. 6 (2): 65–70. JSTOR 4615733. MR 0538597.
  3. Schweder, T.; Spjøtvoll, E. (1982). "Plots of P-values to evaluate many tests simultaneously". Biometrika. 69 (3): 493. doi:10.1093/biomet/69.3.493.
  4. Hochberg, Y.; Benjamini, Y. (1990). "More powerful procedures for multiple significance testing". Statistics in Medicine. 9 (7): 811–818. doi:10.1002/sim.4780090710. PMID 2218183.
  5. Soric, Branko (June 1989). "Statistical "Discoveries" and Effect-Size Estimation". Journal of the American Statistical Association. 84 (406): 608–610. doi:10.1080/01621459.1989.10478811. JSTOR 2289950.
  6. Simes, R. J. (1986). "An improved Bonferroni procedure for multiple tests of significance". Biometrika. 73 (3): 751–754. doi:10.1093/biomet/73.3.751.
  7. Hommel, G. (1988). "A stagewise rejective multiple test procedure based on a modified Bonferroni test". Biometrika. 75 (2): 383. doi:10.1093/biomet/75.2.383.
  8. Hochberg, Yosef (1988). "A Sharper Bonferroni Procedure for Multiple Tests of Significance" (PDF). Biometrika. 75 (4): 800–802. doi:10.1093/biomet/75.4.800.
  9. Storey, J. D.; Taylor, J. E.; Siegmund, D. (2004). "Strong control, conservative point estimation and simultaneous conservative consistency of false discovery rates: A unified approach". Journal of the Royal Statistical Society: Series B (Statistical Methodology). 66: 187. doi:10.1111/j.1467-9868.2004.00439.x.
  10. Benjamini, Y.; Krieger, A. M.; Yekutieli, D. (2006). "Adaptive linear step-up procedures that control the false discovery rate". Biometrika. 93 (3): 491. doi:10.1093/biomet/93.3.491.
  11. Gavrilov, Y.; Benjamini, Y.; Sarkar, S. K. (2009). "An adaptive step-down procedure with proven FDR control under independence". The Annals of Statistics. 37 (2): 619. doi:10.1214/07-AOS586.
  12. Blanchard, G.; Roquain, E. (2008). "Two simple sufficient conditions for FDR control". Electronic Journal of Statistics. 2: 963. doi:10.1214/08-EJS180.
  13. Benjamini, Yoav; Yekutieli, Daniel (2001). "The control of the false discovery rate in multiple testing under dependency" (PDF). Annals of Statistics. 29 (4): 1165–1188. doi:10.1214/aos/1013699998. MR 1869245.
  14. Sarkar, Sanat K. "Stepup procedures controlling generalized FWER and generalized FDR."
  15. Sarkar, Sanat K. , and Wenge Guo.
  16. Benjamini, Y. (2010). "Simultaneous and selective inference: Current successes and future challenges". Biometrical Journal. 52 (6): 708–721. doi:10.1002/bimj.200900299. PMID 21154895.
  17. Zhao, Z.; Gene Hwang, J. T. (2012). "Empirical Bayes false coverage rate controlling confidence intervals". Journal of the Royal Statistical Society: Series B (Statistical Methodology): no. doi:10.1111/j.1467-9868.2012.01033.x.
  18. Efron B (2008). "Microarrays, empirical Bayes and the two groups model". Statistical Science. 23: 1–22. doi:10.1214/07-STS236.
  19. Storey, John D. (2003). "The positive false discovery rate: A Bayesian interpretation and the q-value" (PDF). Annals of Statistics. 31 (6): 2013–2035. doi:10.1214/aos/1074290335.
  20. Efron, Bradley (2010). Large-Scale Inference. Cambridge University Press. ISBN 978-0-521-19249-1.
  21. Abramovich F, Benjamini Y, Donoho D, Johnstone IM; Benjamini; Donoho; Johnstone (2006). "Adapting to unknown sparsity by controlling the false discovery rate". Annals of Statistics. 34 (2): 584–653. arXiv:math/0505374. Bibcode:2005math......5374A. doi:10.1214/009053606000000074.
  22. Donoho D, Jin J; Jin (2006). "Asymptotic minimaxity of false discovery rate thresholding for sparse exponential data". Annals of Statistics. 34 (6): 2980–3018. arXiv:math/0602311. Bibcode:2006math......2311D. doi:10.1214/009053606000000920.
  23. Benjamini Y, Gavrilov Y; Gavrilov (2009). "A simple forward selection procedure based on false discovery rate control". Annals of Applied Statistics. 3 (1): 179–198. arXiv:0905.2819. Bibcode:2009arXiv0905.2819B. doi:10.1214/08-AOAS194.
  24. Donoho D, Jin JS; Jin (2004). "Higher criticism for detecting sparse heterogeneous mixtures". Annals of Statistics. 32 (3): 962–994. arXiv:math/0410072. Bibcode:2004math.....10072D. doi:10.1214/009053604000000265.
  25. "False discovery rate controlling confidence intervals for selected parameters". Journal of the American Statistical Association. 100 (469): 71–80. 2005. doi:10.1198/016214504000001907.
  26. Colquhoun, David (2015). "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1: 140216. doi:10.1098/rsos.140216.
  27. Colquhoun, David. "The problem with p-values". Aeon. Aeon Magazine. Retrieved 11 December 2016.
  28. Colquhoum, David. "The Reproducibility Of Research And The Misinterpretation Of P Values". bioRxiv. bioRxiv. Retrieved 5 June 2017.