نمونه‌برداری گیبز

منظور از نمونه‌برداری گیبز یا نمونه‌بردار گیبز (به انگلیسی: Gibbs sampling) در مطالعات آماری، الگوریتمی است که بر مبنای تئوری زنجیره مارکوف مونت کارلو طراحی شده‌است. کاربرد این الگوریتم در تولید دنباله‌ای از مشاهدات از یک تابع توزیع احتمالاتی چند متغیره است که تولید نمونه از آن به صورت مستقیم دشوار است. این دنباله را می‌توان برای تخمین توزیع همزمان (مثلاً برای تولید هیستوگرام توزیع)، تخمین توزیع حاشیه ای بر روی یک یا زیر مجموعه‌ای از متغیرهای توزیع (مانند پارامتر پنهان یا متغیرهای پنهان)، یا برای محاسبه یک انتگرال (مانند امید ریاضی متغیرها) استفاده نمود. اغلب برخی از متغیرها وابسته به مشاهدات هستند که مقدار آن‌ها مشخص است و بنابراین نیازی به نمونه‌برداری برای آن‌ها نیست.

نمونه‌برداری گیبز معمولاً به عنوان ابزاری برای استنتاج آماری و به ویژه در استنتاج بیزی استفاده می‌شود. این روش یک الگوریتم تصادفی (از آن جهت که با استفاده از اعداد تصادفی نمونه تولید می‌کند) که می‌تواند جایگزینی برای الگوریتم‌های قطعی در استنتاج آماری مانند الگوریتم بیشینه انتظار (ای ام) باشد.

نمونه‌برداری گیبز مانند دیگر الگوریتم‌های زنجیره مارکوف مونت کارلو، زنجیره مارکوفی از نمونه‌ها تولید می‌شود بطوری‌که هر نمونه وابسته به نمونه‌های نزدیک است؛ بنابراین اگر نمونه‌های مستقل مورد نظر است، باید نمونه‌برداری محتاطانه انجام پذیرد، این کار اغلب با نازک‌سازی زنجیرهٔ نمونه‌های حاصل شده انجام می‌شود بدین شکل که تنها مقدار n-ام زنجیره مثلاً ۱۰۰-ام انتخاب می‌شود. علاوه بر این نمونه‌های ابتدای زنجیره (تکرارهای سوخته) احتمالاً نمایانگر خوبی برای توزیع مورد نظر نخواهند بود.

مقدمه ویرایش

نمونه‌برداری گیبز به افتخار نام فیزیکدان Josiah ویلارد گیبس, نامگذاری شده‌است و اشاره به یک مقایسه بین الگوریتم نمونه برداری و فیزیک آماری دارد. الگوریتم شرح داده شده، توسط برادران استوارت و دونالد Geman در سال 1984، یعنی هشت دهه پس از مرگ گیبس تشریح شد.^[۱]

پیاده‌سازی ویرایش

نمونه‌برداری گیبس در تجسم اولیه، یک حالت خاص از این الگوریتم متروپلیس‌هستینگز است. نکته‌ای که در نمونه‌برداری گیبس وجود دارد این است که برای یک توزیع چند متغیره، نمونه‌برداری از توزیع شرطی ساده‌تر است از محاسبه توزیع حاشیه ای، که با انتگرال‌گیری بر روی توزیع توام به‌دست می‌آید. فرض کنید ما می خواهیم $\left.k\right.$ نمونه از $\mathbf {X} =(x_{1},\dots ,x_{n})$ از یک توزیع توام $p(x_{1},\dots ,x_{n})$ به‌دست بیاوریم. نمونه $i$ -ام را به‌صورت $\mathbf {X} ^{(i)}=\left(x_{1}^{(i)},\dots ,x_{n}^{(i)}\right)$ روند الگوریتم به شرح زیر است:

با مقدار اولیه‌ای مانند $\mathbf {X} ^{(i)}$ شروع می‌کنیم.
نمونه بعدی را باید تولید نماییم. آن را $\mathbf {X} ^{(i+1)}$ می نامیم. $\mathbf {X} ^{(i+1)}=(x_{1}^{(i+1)},x_{2}^{(i+1)},\dots ,x_{n}^{(i+1)})$ یک بردار است، مقدار هر اندیس $x_{j}^{(i+1)}$ از این بردار از توزیع آن اندیس مشروط بر باقی اندیس‌هایی که تاکنون نمونه‌برداری شده اند، نمونه‌برداری می‌شود. اما یک دست آورد این است که: ما اندیس های $\mathbf {X} ^{(i+1)}$ را تا $x_{j-1}^{(i+1)}$ و پس از آن اندیس های $\mathbf {X} ^{(i)}$ را با شروع از $x_{j+1}^{(i)}$ تا $x_{n}^{(i)}$ مشروط کردیم. برای دستیابی به این هدف نمونه‌برداری اندیس‌ها به ترتیب با شروع از اولین اندیس انجام شد. به بیان ریاضیاتی دقیق تر برای نمونه‌برداری از ${\textstyle x_{j}^{(i+1)}}$ , آن را بر اساس توزیعی که به صورت $p(x_{j}^{(i+1)}|x_{1}^{(i+1)},\dots ,x_{j-1}^{(i+1)},x_{j+1}^{(i)},\dots ,x_{n}^{(i)})$ بیان می‌شود، به روز رسانی کرده ایم.
دقت کنید که از مقدار اندیس $j+1$ -ام در نمونه $i$ -ام استفاده کرده ایم نه نمونه $i+1$ -ام.
گام فوق را به تعداد $k$ .

یادداشت ویرایش

↑ Geman, S.; Geman, D. (1984). "Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images". IEEE Transactions on Pattern Analysis and Machine Intelligence. 6 (6): 721–741. doi:10.1109/TPAMI.1984.4767596.

منابع ویرایش

Bishop, Christopher M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 0-387-31073-8 {{citation}}: More than one of |ISBN= و |isbn= specified (help)نگهداری CS1: پیش‌فرض تکرار ref (link)
Bolstad, William M. (2010) با درک محاسباتی بیزی آمار, John Wiley شابک ‎۹۷۸−۰−۴۷۰−۰۴۶۰۹−۸
Casella, G.; George, E. I. (1992). "Explaining the Gibbs Sampler". The American Statistician. 46 (3): 167. doi:10.2307/2685208. JSTOR 2685208. (شامل خلاصه اساسی و بسیاری از مراجع است.)
Gelfand, Alan E.; Smith, Adrian F. M. (1990), "Sampling-Based Approaches to Calculating Marginal Densities", Journal of the American Statistical Association, 85 (410): 398–409, doi:10.2307/2289776, JSTOR 2289776, MR 1141740 {{citation}}: More than one of |DOI= و |doi= specified (help); More than one of |JSTOR= و |jstor= specified (help); More than one of |MR= و |mr= specified (help)
Gelman, A.کارلین J. B. استرن H. S. Dunson D. Vehtari A., روبین D. B. (2013), بیزی تجزیه و تحلیل داده ها, third edition. لندن: Chapman & Hall.
لوین, David A.; پرز یووال; Wilmer, Elizabeth A. (2008), "زنجیره مارکف و مخلوط کردن بار", انجمن ریاضی آمریکا.
Robert C. P.; Casella, G. (2004), مونت کارلو روش‌های آماری (ویرایش دوم), Springer-Verlag.

پیوند به بیرون ویرایش

این OpenBUGS پروژه — bayesian با استفاده از نمونه‌گیری گیبس
یک کاربرد عملی از نمونه‌برداری گیبس در ژنومیک
PyMC — زنجیره مارکوف مونت کارلو در پایتون
IA2RMS یک کد متلب از Independent Doubly Adaptive Rejection Metropolis Sampler برای نقشه کشی از وضعیت‌های تماماً چگال.

[1] Geman, S.; Geman, D. (1984). "Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images". IEEE Transactions on Pattern Analysis and Machine Intelligence. 6 (6): 721–741. doi:10.1109/TPAMI.1984.4767596.

[۱]