سلاخی داده یا صید داده یا پی-هکینگ (به انگلیسی: p-hacking)[۱] سوء استفاده از تحلیل داده برای پیدا کردن الگوهایی در داده است که می توانند تحت عنوان به لحاظ آماری معنادار معرفی شوند در حالی که در واقع هیچ اثر زیربنایی‌ای وجود ندارد. این کار با انجام آزمون‌های آماری متعدد روی داده و تنها گزارش آنهایی که نتایج قابل ملاحظه یا معنادار (significant) برمی‌گردانند، صورت می‌گیرد. به جای آن که یک تک فرضیه درباره اثری زیربنایی قبل از تحلیل وضع شود و آنگاه تک آزمونی برای آن به انجام رسانده شود.[۲]

مثالی از نتیجه‌ای که با سلاخی داده به دست آمده است، که همبستگی‌ای را میان تعداد حروف در واژه برنده در Spelling bee و تعداد مردمی در ایالات متحده که توسط عنکبوت‌های سمی کشته شده اند نشان می دهد.

در سلاخی داده با جستجوی جامع (جستجوی بروت-فورس) - احتمالاً برای پیدا کردن ترکیبی از متغیرها که همبستگی نشان دهند یا مشاهداتی که در میانگین یا فروپاشیشان توسط متغیری دیگر تفاوت دارند - چندین فرضیه‌ روی یک مجموعه داده تست می‌شود.

آزمون‌های معمول برای معناداری آماری بر این اساسند که چقدر احتمال دارد یک نتیجه کاملاً بر حسب تصادف بروز پیدا کند، و همواره مقداری ریسک برای نتایج اشتباه (مانند رد کردن اشتباهی فرضیه تهی) را می‌پذیرند. سطح این ریسک معناداری (significance) نام دارد. وقتی تعداد زیادی تست انجام می شود، برخی از آن ها نتایج کاذبی از این نوع تولید می کنند،بنابراین در سطح معناداری ۵ درصد، ۵ درصد از فرضیه‌های انتخاب شده‌ی تصادفی ممکن است اشتباهی معنادار اعلام شده باشند، و به همین ترتیب به بقیه‌ی سطوح. هنگامی که فرضیه های کافی‌ای آزموده شود، کمابیش مسلم است که برخی به لحاظ آماری معنادار خواهند بود(گرچه گمراه‌کننده)، چراکه تقریباً هر مجموعه داده‌ای با هر درجه‌ای از تصادفی‌بودن ممکن است شامل همبستگی‌ جعلی باشد. اگر محققانی که از داده‌کاوی استفاده می کنند محتاط نباشند می توانند به آسانی با این نتایج به بیراهه بروند.

سلاخی داده یکی از مثال‌های اهمیت ندادن به مسئله‌ی مقایسه چندگانه است. یک شکل آن زمانی رخ می‌دهد که بدون اظلاع دادن به خواننده درباره تعداد کل مقایسه زیرگروه‌ها آن‌ها را مقایسه کنیم.[۳]

جستارهای وابسته ویرایش

جستارهای وابسته ویرایش

  1. Wasserstein, Ronald L.; Lazar, Nicole A. (2016-04-02). "The ASA Statement on p -Values: Context, Process, and Purpose". The American Statistician (به انگلیسی). 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305.
  2. Davey Smith, G. (2002-12-21). "Data dredging, bias, or confounding". BMJ. 325 (7378): 1437–1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.{{cite journal}}: نگهداری یادکرد:فرمت پارامتر PMC (link)
  3. Young, S. S.; Karr, A. (2011). "Deming, data and observational studies" (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x.

منابع ویرایش