استنباط بیزی تغییراتی

استنباط بیزی تغییراتی (به انگلیسی: Variational Bayes Inference) یا استنباط بیزی وردشی^[۱]، از جمله روش های رایج در یادگیری بیزی است که برای تقریب جواب با استفاده از یک سری فرض های استقلال در توزیع پَسین (به انگلیسی: Posterior distribution) است. نکته مشکل ساز در یادگیری بیزی این است که برای حساب کردن توزیع پسین لازم است انتگرالی روی تمام حالات ممکن متغیرهای پنهان حساب شود که به درست نمایی حاشیه ای (به انگلیسی: marginal likelihood) معروف است. استنباط وردشی سعی در تقریب این انتگرال دشوار دارد تا یادگیری مدل و استنباط با آن را آسان تر کند. به عبارتی دیگی، روش استنباط بیزیِ وردشی

تقریبی برای توزیع پَسین می دهد. با استفاده از این تقریب و داشتن پارامترهای مدل، می توان استنباط آماری روی داده های دیده نشده انجام داد.
کرانی پایین برای درست نمایی حاشیه ای (یا "گواه"(به انگلیسی: evidence)) روی داده های آموزشی می دهد. با استفاده از این کران می توان پارامترهای مدل را یاد گرفت ("یادگیری مدل" یا model selection). ایده ی کلی این است که هرچه مقدار درست نمایی برای داده های مورد نظر بیشتر باشد، پارامترها برای مدل و داده ها مناسب تر هستند.

می توان گفت روش استنباط وردشی، تعمیمی از یادگیری "حداکثرسازی امید" (به انگلیسی: Expectation Maximization) است.

یک نمونه ساده

فرض کنید یک مدل ساده بیزی داریم که در آن مجموعه ای از داده های iid از یک توزیع گوسی با میانگین و واریانس نامشخص در اختیار داریم^[۲]. در این مثال با جزئیات زیاد سعی داریم عملکرد یادگیری و استنباط وردشی را نشان دهیم.

مدل ریاضی

در مدل سازی پارامترهای مسئله، برای مدل سازی پارامترها، از توزیع مزدوج پیشین (به انگلیسی: conjugate prior) استفاده می کنیم. یعنی برای میانگین توزیع نرمال، و برای واریانس توزیع گاما در نظر می گیریم:

{\begin{aligned}\mu &\sim {\mathcal {N}}(\mu _{0},(\lambda _{0}\tau )^{-1})\\\tau &\sim \operatorname {Gamma} (a_{0},b_{0})\\\{x_{1},\dots ,x_{N}\}&\sim {\mathcal {N}}(\mu ,\tau ^{-1})\\N&={\text{number of data points}}\end{aligned}}

اکنون $N$ نقطه $\mathbf {X} =\{x_{1},\dots ,x_{N}\}$ در اختیار داریم و هدف این است که توزیع پسین $q(\mu ,\tau )=p(\mu ,\tau |x_{1},\ldots ,x_{N})$ را برای پارامترهای مدل $\mu$ و $\tau$ یادبگیریم. فراپارامترهای مدل، یعنی $\mu _{0}$ , $\lambda _{0}$ , $a_{0}$ و $b_{0}$ مقادیری ثابت هستند.

توزیع مشترک

توزیع مشترک متغیرهای مسئله به صورت زیر است:

p(\mathbf {X} ,\mu ,\tau )=p(\mathbf {X} |\mu ,\tau )p(\mu |\tau )p(\tau )

که هرکدام از آنها بر اساس فاکتورهایشان به صورت زیر هستند:

{\begin{aligned}p(\mathbf {X} |\mu ,\tau )&=\prod _{n=1}^{N}{\mathcal {N}}(x_{n}|\mu ,\tau ^{-1})\\p(\mu |\tau )&={\mathcal {N}}(\mu |\mu _{0},(\lambda _{0}\tau )^{-1})\\p(\tau )&=\operatorname {Gamma} (\tau |a_{0},b_{0})\end{aligned}}

که در آن:

{\begin{aligned}{\mathcal {N}}(x|\mu ,\sigma ^{2})&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}\\\operatorname {Gamma} (\tau |a,b)&={\frac {1}{\Gamma (a)}}b^{a}\tau ^{a-1}e^{-b\tau }\end{aligned}}

فرض استقلال توزیع ها

فرض کنید که توزیع روی پارامترهای مسئله به صورت $q(\mu ,\tau )=q(\mu )q(\tau )$ تجزیه شوند. در اصل چنین فرضی درست نیست. چرا که پارامتر واریانس توزیع نرمال میانگین وابسته به توزیع گاما است. اما به صورت تقریبی فرض استقلال فوق را انجام می دهیم. چنین فرضی باعث ایجاد خطا در نتیجه ی نهایی خواهد شد، اما در قبال این خطا، سرعت بیشتری در یادگیری مدل به دست می آوریم. فرض استقلال بین توزیع های پارامترهای مسئله اساس روش استنتاج وردشی است.

بدست آوردن فاکتور q(μ)

{\begin{aligned}\ln q_{\mu }^{*}(\mu )&=\operatorname {E} _{\tau }[\ln p(\mathbf {X} |\mu ,\tau )+\ln p(\mu |\tau )+\ln p(\tau )]+C\\&=\operatorname {E} _{\tau }[\ln p(\mathbf {X} |\mu ,\tau )]+\operatorname {E} _{\tau }[\ln p(\mu |\tau )]+\operatorname {E} _{\tau }[\ln p(\tau )]+C\\&=\operatorname {E} _{\tau }[\ln \prod _{n=1}^{N}{\mathcal {N}}(x_{n}|\mu ,\tau ^{-1})]+\operatorname {E} _{\tau }[\ln {\mathcal {N}}(\mu |\mu _{0},(\lambda _{0}\tau )^{-1})]+C_{2}\\&=\operatorname {E} _{\tau }[\ln \prod _{n=1}^{N}{\sqrt {\frac {\tau }{2\pi }}}e^{-{\frac {(x_{n}-\mu )^{2}\tau }{2}}}]+\operatorname {E} _{\tau }[\ln {\sqrt {\frac {\lambda _{0}\tau }{2\pi }}}e^{-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}}]+C_{2}\\&=\operatorname {E} _{\tau }[\sum _{n=1}^{N}\left({\frac {1}{2}}(\ln \tau -\ln 2\pi )-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right)]+\operatorname {E} _{\tau }[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}]+C_{2}\\&=\operatorname {E} _{\tau }[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}]+\operatorname {E} _{\tau }[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}]+\operatorname {E} _{\tau }[\sum _{n=1}^{N}{\frac {1}{2}}(\ln \tau -\ln 2\pi )]+\operatorname {E} _{\tau }[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )]+C_{2}\\&=\operatorname {E} _{\tau }[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}]+\operatorname {E} _{\tau }[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}]+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\}+C_{3}\end{aligned}}

در عبارت فوق پارامترهای $C$ , $C_{2}$ و $C_{3}$ مقادیر ثابت نسبت به پارامتر $\mu$ هستند. با توجه به عبارت آخر مشاهده می شود که توزیع حول $\mu$ دارای توزیع گوسی است. با کمی بازی با جملات ریاضی می توان توزیع را به فرم گوسی استاندارد نوشت و جمله ای برای میانگین و واریانس آن بدست آورد.

{\begin{aligned}\ln q_{\mu }^{*}(\mu )&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{\sum _{n=1}^{N}(x_{n}^{2}-2x_{n}\mu +\mu ^{2})+\lambda _{0}(\mu ^{2}-2\mu _{0}\mu +\mu _{0}^{2})\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{(\sum _{n=1}^{N}x_{n}^{2})-2(\sum _{n=1}^{N}x_{n})\mu +\sum _{n=1}^{N}\mu ^{2})+\lambda _{0}\mu ^{2}-2\lambda _{0}\mu _{0}\mu +\lambda _{0}\mu _{0}^{2})\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{(\lambda _{0}+N)\mu ^{2}-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu +(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{(\lambda _{0}+N)\mu ^{2}-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu \}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}(\lambda _{0}+N)\mu \right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\mu \right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\mu +\left({\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}-\left({\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\mu +\left({\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{5}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu -{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right\}+C_{5}\\&=-{\frac {1}{2}}\left\{(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\left(\mu -{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right\}+C_{5}\\\end{aligned}}

به عبارت دیگر:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu |\mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} [\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

بدست آوردن فاکتور q(τ)

بدست آوردن فاکتور $q_{\tau }^{*}(\tau )$ تا حد زیادی مشابه مراحل بالاست.

{\begin{aligned}\ln q_{\tau }^{*}(\tau )&=\operatorname {E} _{\mu }[\ln p(\mathbf {X} |\mu ,\tau )+\ln p(\mu |\tau )]+\ln p(\tau )+{\text{constant}}\\&=(a_{0}-1)\ln \tau -b_{0}\tau +{\frac {N}{2}}\ln \tau -{\frac {\tau }{2}}\operatorname {E} _{\mu }[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}]+{\text{constant}}\end{aligned}}

با به توان رساندن دو طرف، توزیع نهایی به صورت یک توزیع گاما بدست می آید.

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau |a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

الگوریتم محاسبه ی پارامترهای بهینه مسئله

بگذارید نتایجی را که از قسمت های قبل بدست آوردیم را یادآوری کنیم:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} [\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

و

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

در هر کدام از موارد فوق، امید روی یک پارامتر، وابسته به امید روی پارامترهای دیگر است. می توان این روابط را بر اساس روابط پایه آماری بسط داد.

{\begin{aligned}\operatorname {E} [\tau \mid a_{N},b_{N}]&={\frac {a_{N}}{b_{N}}}\\\operatorname {E} [\mu \mid \mu _{N},\lambda _{N}^{-1}]&=\mu _{N}\\\operatorname {E} \left[X^{2}\right]&=\operatorname {Var} (X)+(\operatorname {E} [X])^{2}\\\operatorname {E} [\mu ^{2}\mid \mu _{N},\lambda _{N}^{-1}]&=\lambda _{N}^{-1}+\mu _{N}^{2}\end{aligned}}

اعمال روابط فوق به پارامترها سر راست است. در اینجا تنها به توضیح رابطه ی مربوط به $b_{N}$ می پردازیم.

{\begin{aligned}b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\\&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[(\lambda _{0}+N)\mu ^{2}-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu +(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\operatorname {E} _{\mu }[\mu ^{2}]-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\operatorname {E} _{\mu }[\mu ]+(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)(\lambda _{N}^{-1}+\mu _{N}^{2})-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu _{N}+(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\\\end{aligned}}

می توان پارامترهای دیگر را دیگر را به صورت زیر نوشت:

{\begin{aligned}\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N){\frac {a_{N}}{b_{N}}}\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)(\lambda _{N}^{-1}+\mu _{N}^{2})-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu _{N}+(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\end{aligned}}

در عبارات فوق به وابستگی روابط مربوط به $\mu _{N}$ , $\lambda _{N}$ و $b_{N}$ به همدیگر توجه کنید که تشکیل یک الگوریتم حداکثر سازی امیدریاضی (به انگلیسی: expectation maximization) می دهند. می توان مراحل اجرای الگوریتم را به صورت زیر خلاصه کرد:

با استفاده از $\sum _{n=1}^{N}x_{n}$ و $\sum _{n=1}^{N}x_{n}^{2}.$ مقادیر مربوط به $\mu _{N}$ و $a_{N}.$ را حساب کنید.
پارامتر $\lambda _{N}$ را با مقداری اولیه، مقداردهی کنید.
با استفاده از پارامترهای مسئله و از جمله $\lambda _{N}$ ، مقدار $b_{N}$ را تخمین بزنید.
با استفاده از پارامترهای مسئله و از جمله $b_{N}$ ، مقدار $\lambda _{N}$ را تخمین بزنید.
مراحل فوق را تا رسیدن به همگرایی (جایی که هیچکدام از پارامترها دیگر تغییر زیادی نکنند.) انجام دهید.

می توان نشان داد که این بروز رسانی دوری تضمین شده است که به مقدار بهینه محلی همگرا خواهد شد. می توان اثبات کرد که چون توزیع حول هردو پارامتر و توزیع پسین نمایی است، حتماً به نقطه بهینه جهانی همگرا خواهد شد. نکته ظریف اینجاست این نقطه بهینه مربوط به مسئله با تقریب مستقل بودن توزیع پارامترهای مسئله است و در هر صورت نسبت جواب مسئله اصلی تقریبی است.

یک نمونه ی نسبتاً پیچیده تر

مدل مخلوط گوسی . مربع های کوچک نشان دهنده ی پارامترهای ثابت هستند و مربع های بزرگ نشان دهنده ی متغیرهای تصادفی هستند. مربع های توپر نشان دهنده ی مقادیر معلوم است. علامت نشان دهنده ی برداری به طول است. به معنی ماتریسی به اندازه ی است. به معنی یک متغیر با توزیع categorical با K دسته است.

فرض کنید یک نمونه مدل مخلوط گوسی به صورت زیر تعریف شده باشد:

{\begin{aligned}\mathbf {\pi } &\sim \operatorname {SymDir} (K,\alpha _{0})\\\mathbf {\Lambda } _{i=1\dots K}&\sim {\mathcal {W}}(\mathbf {W} _{0},\nu _{0})\\\mathbf {\mu } _{i=1\dots K}&\sim {\mathcal {N}}(\mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{i})^{-1})\\\mathbf {z} [i=1\dots N]&\sim \operatorname {Mult} (1,\mathbf {\pi } )\\\mathbf {x} _{i=1\dots N}&\sim {\mathcal {N}}(\mathbf {\mu } _{z_{i}},{\mathbf {\Lambda } _{z_{i}}}^{-1})\\K&={\text{number of mixing components}}\\N&={\text{number of data points}}\end{aligned}}

چند نکته:

توزیع $SymDir()$ توزیع متقارن دیریکله با $K$ بعد است که دارای فراپارامتر $\alpha _{0}$ است. توزیع دیریکله، توزیع مزدوج پیشین توزیع های categorical و multinomial است.
توزیع ${\mathcal {W}}()$ توزیع ویشارت که توزیع مزدوج پیشین برای ماتریس دقت (عکس ماتریس کواریانس) در توزیع نرمال چند متغیره است.
$Mult()$ توزیع چندجمله‌ای روی یک مشاهده (معادل توزیع categorical) است.
${\mathcal {N}}()$ توزیع نرمال چند متغیره است.

می توان توزیع مشترک روی متغیرهای مسئله را به صورت زیر نوشت:

p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=p(\mathbf {X} |\mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )p(\mathbf {Z} |\mathbf {\pi } )p(\mathbf {\pi } )p(\mathbf {\mu } |\mathbf {\Lambda } )p(\mathbf {\Lambda } )

می توان هر کدام از فاکتورهای مسئله را به صورت زیر ساده سازی کرد:

{\begin{aligned}p(\mathbf {X} |\mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {x} _{n}|\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})^{z_{nk}}\\p(\mathbf {Z} |\mathbf {\pi } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}\pi _{k}^{z_{nk}}\\p(\mathbf {\pi } )&={\frac {\Gamma (K\alpha _{0})}{\Gamma (\alpha _{0})^{K}}}\prod _{k=1}^{K}\pi _{k}^{\alpha _{0}-1}\\p(\mathbf {\mu } |\mathbf {\Lambda } )&={\mathcal {N}}(\mathbf {\mu } _{k}|\mathbf {m} _{0},(\beta _{0}\mathbf {\Lambda } _{k})^{-1})\\p(\mathbf {\Lambda } )&={\mathcal {W}}(\mathbf {\Lambda } _{k}|\mathbf {W} _{0},\nu _{0})\end{aligned}}

که در آن:

{\begin{aligned}{\mathcal {N}}(\mathbf {x} |\mathbf {\mu } ,\mathbf {\Sigma } )&={\frac {1}{(2\pi )^{D/2}}}{\frac {1}{|\mathbf {\Sigma } |^{1/2}}}\exp\{-{\frac {1}{2}}(\mathbf {x} -\mathbf {\mu } )^{\rm {T}}\mathbf {\Sigma } ^{-1}(\mathbf {x} -\mathbf {\mu } )\}\\{\mathcal {W}}(\mathbf {\Lambda } |\mathbf {W} ,\nu )&=B(\mathbf {W} ,\nu )|\mathbf {\Lambda } |^{(\nu -D-1)/2}\exp \left(-{\frac {1}{2}}\operatorname {Tr} (\mathbf {W} ^{-1}\mathbf {\Lambda } )\right)\\B(\mathbf {W} ,\nu )&=|\mathbf {W} |^{-\nu /2}(2^{\nu D/2}\pi ^{D(D-1)/4}\prod _{i=1}^{D}\Gamma ({\frac {\nu +1-i}{2}}))^{-1}\\D&={\text{dimensionality of each data point}}\end{aligned}}

اگر فرض کنیم $q(\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=q(\mathbf {Z} )q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$ بنابرین:

{\begin{aligned}\ln q^{*}(\mathbf {Z} )&=\operatorname {E} _{\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\operatorname {E} _{\mathbf {\pi } }[\ln p(\mathbf {Z} |\mathbf {\pi } )]+\operatorname {E} _{\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} |\mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\sum _{n=1}^{N}\sum _{k=1}^{K}z_{nk}\ln \rho _{nk}+{\text{constant}}\end{aligned}}

که آن تعریف کرده ایم:

\ln \rho _{nk}=\operatorname {E} [\ln \pi _{k}]+{\frac {1}{2}}\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]-{\frac {D}{2}}\ln(2\pi )-{\frac {1}{2}}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]

با به توان رساندن هر دو طرف داریم:

q^{*}(\mathbf {Z} )\propto \prod _{n=1}^{N}\prod _{k=1}^{K}\rho _{nk}^{z_{nk}}

به صورتی معادل می توان عبارت فوق را به صورت زیر نوشت:

q^{*}(\mathbf {Z} )=\prod _{n=1}^{N}\prod _{k=1}^{K}r_{nk}^{z_{nk}}

که در آن:

r_{nk}={\frac {\rho _{nk}}{\sum _{j=1}^{K}\rho _{nj}}}

همچنین توجه کنید که

\operatorname {E} [z_{nk}]=r_{nk}\,

که به صورت طبیعی از توزیع categorical بدست می آید. با توجه به فاکتوریزه کردن $q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$ به صورت $q(\mathbf {\pi } )\prod _{k=1}^{K}q(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})$ می توان نوشت:

{\begin{aligned}\ln q^{*}(\mathbf {\pi } )&=\ln p(\mathbf {\pi } )+\operatorname {E} _{\mathbf {Z} }[\ln p(\mathbf {Z} |\mathbf {\pi } )]+{\text{constant}}\\&=(\alpha _{0}-1)\sum _{k=1}^{K}\ln \pi _{k}+\sum _{n=1}^{N}\sum _{k=1}^{K}r_{nk}\ln \pi _{k}+{\text{constant}}\end{aligned}}

با به توان رساندن دو طرف می توان دید که $q^{*}(\mathbf {\pi } )$ دارای توزیع دریکله است.

q^{*}(\mathbf {\pi } )\sim \operatorname {Dir} (\mathbf {\alpha } )\,

که در آن

\alpha _{k}=\alpha _{0}+N_{k}\,

همچنین

N_{k}=\sum _{n=1}^{N}r_{nk}\,

در نهایت داریم:

\ln q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})=\ln p(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})+\sum _{n=1}^{N}\operatorname {E} [z_{nk}]\ln {\mathcal {N}}(\mathbf {x} _{n}|\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})+{\text{constant}}

می توان نتیجه کلی را به اینصورت نوشت:

q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})={\mathcal {N}}(\mathbf {\mu } _{k}|\mathbf {m} _{k},(\beta _{k}\mathbf {\Lambda } _{k})^{-1}){\mathcal {W}}(\mathbf {\Lambda } _{k}|\mathbf {W} _{k},\nu _{k})

که دارای پارامترهای زیر است:

{\begin{aligned}\beta _{k}&=\beta _{0}+N_{k}\\\mathbf {m} _{k}&={\frac {1}{\beta _{k}}}(\beta _{0}\mathbf {m} _{0}+N_{k}{\bar {\mathbf {x} }}_{k})\\\mathbf {W} _{k}^{-1}&=\mathbf {W} _{0}^{-1}+N_{k}\mathbf {S} _{k}+{\frac {\beta _{0}N_{k}}{\beta _{0}+N_{k}}}({\bar {\mathbf {x} }}_{k}-\mathbf {m} _{0})({\bar {\mathbf {x} }}_{k}-\mathbf {m} _{0})^{\rm {T}}\\\nu _{k}&=\nu _{0}+N_{k}\\N_{k}&=\sum _{n=1}^{N}r_{nk}\\{\bar {\mathbf {x} }}_{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}\mathbf {x} _{n}\\\mathbf {S} _{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})^{\rm {T}}\end{aligned}}

{\begin{array}{rcccl}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]&&&=&D\beta _{k}^{-1}+\nu _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\\\ln {\tilde {\Lambda }}_{k}&\equiv &\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]&=&\sum _{i=1}^{D}\psi \left({\frac {\nu _{k}+1-i}{2}}\right)+D\ln 2+\ln |\mathbf {\Lambda } _{k}|\\\ln {\tilde {\pi }}_{k}&\equiv &\operatorname {E} \left[\ln |\pi _{k}|\right]&=&\psi (\alpha _{k})-\psi \left(\sum _{i=1}^{K}\alpha _{i}\right)\end{array}}

r_{nk}\propto {\tilde {\pi }}_{k}{\tilde {\Lambda }}_{k}^{1/2}\exp \left\{-{\frac {D}{2\beta _{k}}}-{\frac {\nu _{k}}{2}}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\right\}

با اجرای پی در پی مراحل بروز رسانی می توان مدل را آموزش داد:

محاسبه ی $r_{nk}$ با استفاده از سایر پارامترها(E-step).
محاسبه ی $r_{nk}$ با استفاده از سایر پارامترهای(M-step).

منابع

↑ «سامانه واژه‌یار». vajeyar.apll.ir. دریافت‌شده در ۲۰۲۳-۰۳-۰۵.
↑ Pattern Recognition and Machine Learning by کریستوفر بیشاپ بر اساس فصل دهم

Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8.{{cite book}}: نگهداری CS1: پیش‌فرض تکرار ref (link)

پیوند به بیرون

Variational-Bayes Repository A repository of papers, software, and links related to the use of variational methods for approximate Bayesian learning
The on-line textbook: Information Theory, Inference, and Learning Algorithms, by دیوید جی سی ماکای provides an introduction to variational methods (p. 422).
Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
A Tutorial on Variational Bayes. Fox, C. and Roberts, S. 2011. Artificial Intelligence Review, doi:10.1007/s10462-011-9236-8.
High-Level Explanation of Variational Inference by Jason Eisner may be worth reading before a more mathematically detailed treatment.

[1] «سامانه واژه‌یار». vajeyar.apll.ir. دریافت‌شده در ۲۰۲۳-۰۳-۰۵.

[2] Pattern Recognition and Machine Learning by کریستوفر بیشاپ بر اساس فصل دهم

[۱]

[۲]