استنباط بیزی تغییراتی (به انگلیسی : Variational Bayes Inference ) یا استنباط بیزی وردشی [ ۱] ، از جمله روش های رایج در یادگیری بیزی است که برای تقریب جواب با استفاده از یک سری فرض های استقلال در توزیع پَسین (به انگلیسی : Posterior distribution ) است. نکته مشکل ساز در یادگیری بیزی این است که برای حساب کردن توزیع پسین لازم است انتگرالی روی تمام حالات ممکن متغیرهای پنهان حساب شود که به درست نمایی حاشیه ای (به انگلیسی : marginal likelihood ) معروف است. استنباط وردشی سعی در تقریب این انتگرال دشوار دارد تا یادگیری مدل و استنباط با آن را آسان تر کند. به عبارتی دیگی، روش استنباط بیزیِ وردشی
تقریبی برای توزیع پَسین می دهد. با استفاده از این تقریب و داشتن پارامترهای مدل، می توان استنباط آماری روی داده های دیده نشده انجام داد.
کرانی پایین برای درست نمایی حاشیه ای (یا "گواه"(به انگلیسی : evidence )) روی داده های آموزشی می دهد. با استفاده از این کران می توان پارامترهای مدل را یاد گرفت ("یادگیری مدل" یا model selection). ایده ی کلی این است که هرچه مقدار درست نمایی برای داده های مورد نظر بیشتر باشد، پارامترها برای مدل و داده ها مناسب تر هستند.
می توان گفت روش استنباط وردشی، تعمیمی از یادگیری "حداکثرسازی امید" (به انگلیسی : Expectation Maximization ) است.
فرض کنید یک مدل ساده بیزی داریم که در آن مجموعه ای از داده های iid از یک توزیع گوسی با میانگین و واریانس نامشخص در اختیار داریم[ ۲] . در این مثال با جزئیات زیاد سعی داریم عملکرد یادگیری و استنباط وردشی را نشان دهیم.
در مدل سازی پارامترهای مسئله، برای مدل سازی پارامترها، از توزیع مزدوج پیشین (به انگلیسی : conjugate prior ) استفاده می کنیم. یعنی برای میانگین توزیع نرمال، و برای واریانس توزیع گاما در نظر می گیریم:
μ
∼
N
(
μ
0
,
(
λ
0
τ
)
−
1
)
τ
∼
Gamma
(
a
0
,
b
0
)
{
x
1
,
…
,
x
N
}
∼
N
(
μ
,
τ
−
1
)
N
=
number of data points
{\displaystyle {\begin{aligned}\mu &\sim {\mathcal {N}}(\mu _{0},(\lambda _{0}\tau )^{-1})\\\tau &\sim \operatorname {Gamma} (a_{0},b_{0})\\\{x_{1},\dots ,x_{N}\}&\sim {\mathcal {N}}(\mu ,\tau ^{-1})\\N&={\text{number of data points}}\end{aligned}}}
اکنون
N
{\displaystyle N}
نقطه
X
=
{
x
1
,
…
,
x
N
}
{\displaystyle \mathbf {X} =\{x_{1},\dots ,x_{N}\}}
در اختیار داریم و هدف این است که توزیع پسین
q
(
μ
,
τ
)
=
p
(
μ
,
τ
|
x
1
,
…
,
x
N
)
{\displaystyle q(\mu ,\tau )=p(\mu ,\tau |x_{1},\ldots ,x_{N})}
را برای پارامترهای مدل
μ
{\displaystyle \mu }
و
τ
{\displaystyle \tau }
یادبگیریم. فراپارامترهای مدل، یعنی
μ
0
{\displaystyle \mu _{0}}
,
λ
0
{\displaystyle \lambda _{0}}
,
a
0
{\displaystyle a_{0}}
و
b
0
{\displaystyle b_{0}}
مقادیری ثابت هستند.
توزیع مشترک متغیرهای مسئله به صورت زیر است:
p
(
X
,
μ
,
τ
)
=
p
(
X
|
μ
,
τ
)
p
(
μ
|
τ
)
p
(
τ
)
{\displaystyle p(\mathbf {X} ,\mu ,\tau )=p(\mathbf {X} |\mu ,\tau )p(\mu |\tau )p(\tau )}
که هرکدام از آنها بر اساس فاکتورهایشان به صورت زیر هستند:
p
(
X
|
μ
,
τ
)
=
∏
n
=
1
N
N
(
x
n
|
μ
,
τ
−
1
)
p
(
μ
|
τ
)
=
N
(
μ
|
μ
0
,
(
λ
0
τ
)
−
1
)
p
(
τ
)
=
Gamma
(
τ
|
a
0
,
b
0
)
{\displaystyle {\begin{aligned}p(\mathbf {X} |\mu ,\tau )&=\prod _{n=1}^{N}{\mathcal {N}}(x_{n}|\mu ,\tau ^{-1})\\p(\mu |\tau )&={\mathcal {N}}(\mu |\mu _{0},(\lambda _{0}\tau )^{-1})\\p(\tau )&=\operatorname {Gamma} (\tau |a_{0},b_{0})\end{aligned}}}
که در آن:
N
(
x
|
μ
,
σ
2
)
=
1
2
π
σ
2
e
−
(
x
−
μ
)
2
2
σ
2
Gamma
(
τ
|
a
,
b
)
=
1
Γ
(
a
)
b
a
τ
a
−
1
e
−
b
τ
{\displaystyle {\begin{aligned}{\mathcal {N}}(x|\mu ,\sigma ^{2})&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}\\\operatorname {Gamma} (\tau |a,b)&={\frac {1}{\Gamma (a)}}b^{a}\tau ^{a-1}e^{-b\tau }\end{aligned}}}
فرض کنید که توزیع روی پارامترهای مسئله به صورت
q
(
μ
,
τ
)
=
q
(
μ
)
q
(
τ
)
{\displaystyle q(\mu ,\tau )=q(\mu )q(\tau )}
تجزیه شوند. در اصل چنین فرضی درست نیست. چرا که پارامتر واریانس توزیع نرمال میانگین وابسته به توزیع گاما است. اما به صورت تقریبی فرض استقلال فوق را انجام می دهیم. چنین فرضی باعث ایجاد خطا در نتیجه ی نهایی خواهد شد، اما در قبال این خطا، سرعت بیشتری در یادگیری مدل به دست می آوریم. فرض استقلال بین توزیع های پارامترهای مسئله اساس روش استنتاج وردشی است.
ln
q
μ
∗
(
μ
)
=
E
τ
[
ln
p
(
X
|
μ
,
τ
)
+
ln
p
(
μ
|
τ
)
+
ln
p
(
τ
)
]
+
C
=
E
τ
[
ln
p
(
X
|
μ
,
τ
)
]
+
E
τ
[
ln
p
(
μ
|
τ
)
]
+
E
τ
[
ln
p
(
τ
)
]
+
C
=
E
τ
[
ln
∏
n
=
1
N
N
(
x
n
|
μ
,
τ
−
1
)
]
+
E
τ
[
ln
N
(
μ
|
μ
0
,
(
λ
0
τ
)
−
1
)
]
+
C
2
=
E
τ
[
ln
∏
n
=
1
N
τ
2
π
e
−
(
x
n
−
μ
)
2
τ
2
]
+
E
τ
[
ln
λ
0
τ
2
π
e
−
(
μ
−
μ
0
)
2
λ
0
τ
2
]
+
C
2
=
E
τ
[
∑
n
=
1
N
(
1
2
(
ln
τ
−
ln
2
π
)
−
(
x
n
−
μ
)
2
τ
2
)
]
+
E
τ
[
1
2
(
ln
λ
0
+
ln
τ
−
ln
2
π
)
−
(
μ
−
μ
0
)
2
λ
0
τ
2
]
+
C
2
=
E
τ
[
∑
n
=
1
N
−
(
x
n
−
μ
)
2
τ
2
]
+
E
τ
[
−
(
μ
−
μ
0
)
2
λ
0
τ
2
]
+
E
τ
[
∑
n
=
1
N
1
2
(
ln
τ
−
ln
2
π
)
]
+
E
τ
[
1
2
(
ln
λ
0
+
ln
τ
−
ln
2
π
)
]
+
C
2
=
E
τ
[
∑
n
=
1
N
−
(
x
n
−
μ
)
2
τ
2
]
+
E
τ
[
−
(
μ
−
μ
0
)
2
λ
0
τ
2
]
+
C
3
=
−
E
τ
[
τ
]
2
{
∑
n
=
1
N
(
x
n
−
μ
)
2
+
λ
0
(
μ
−
μ
0
)
2
}
+
C
3
{\displaystyle {\begin{aligned}\ln q_{\mu }^{*}(\mu )&=\operatorname {E} _{\tau }[\ln p(\mathbf {X} |\mu ,\tau )+\ln p(\mu |\tau )+\ln p(\tau )]+C\\&=\operatorname {E} _{\tau }[\ln p(\mathbf {X} |\mu ,\tau )]+\operatorname {E} _{\tau }[\ln p(\mu |\tau )]+\operatorname {E} _{\tau }[\ln p(\tau )]+C\\&=\operatorname {E} _{\tau }[\ln \prod _{n=1}^{N}{\mathcal {N}}(x_{n}|\mu ,\tau ^{-1})]+\operatorname {E} _{\tau }[\ln {\mathcal {N}}(\mu |\mu _{0},(\lambda _{0}\tau )^{-1})]+C_{2}\\&=\operatorname {E} _{\tau }[\ln \prod _{n=1}^{N}{\sqrt {\frac {\tau }{2\pi }}}e^{-{\frac {(x_{n}-\mu )^{2}\tau }{2}}}]+\operatorname {E} _{\tau }[\ln {\sqrt {\frac {\lambda _{0}\tau }{2\pi }}}e^{-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}}]+C_{2}\\&=\operatorname {E} _{\tau }[\sum _{n=1}^{N}\left({\frac {1}{2}}(\ln \tau -\ln 2\pi )-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right)]+\operatorname {E} _{\tau }[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}]+C_{2}\\&=\operatorname {E} _{\tau }[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}]+\operatorname {E} _{\tau }[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}]+\operatorname {E} _{\tau }[\sum _{n=1}^{N}{\frac {1}{2}}(\ln \tau -\ln 2\pi )]+\operatorname {E} _{\tau }[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )]+C_{2}\\&=\operatorname {E} _{\tau }[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}]+\operatorname {E} _{\tau }[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}]+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\}+C_{3}\end{aligned}}}
در عبارت فوق پارامترهای
C
{\displaystyle C}
,
C
2
{\displaystyle C_{2}}
و
C
3
{\displaystyle C_{3}}
مقادیر ثابت نسبت به پارامتر
μ
{\displaystyle \mu }
هستند. با توجه به عبارت آخر مشاهده می شود که توزیع حول
μ
{\displaystyle \mu }
دارای توزیع گوسی است. با کمی بازی با جملات ریاضی می توان توزیع را به فرم گوسی استاندارد نوشت و جمله ای برای میانگین و واریانس آن بدست آورد.
ln
q
μ
∗
(
μ
)
=
−
E
τ
[
τ
]
2
{
∑
n
=
1
N
(
x
n
−
μ
)
2
+
λ
0
(
μ
−
μ
0
)
2
}
+
C
3
=
−
E
τ
[
τ
]
2
{
∑
n
=
1
N
(
x
n
2
−
2
x
n
μ
+
μ
2
)
+
λ
0
(
μ
2
−
2
μ
0
μ
+
μ
0
2
)
}
+
C
3
=
−
E
τ
[
τ
]
2
{
(
∑
n
=
1
N
x
n
2
)
−
2
(
∑
n
=
1
N
x
n
)
μ
+
∑
n
=
1
N
μ
2
)
+
λ
0
μ
2
−
2
λ
0
μ
0
μ
+
λ
0
μ
0
2
)
}
+
C
3
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
μ
2
−
2
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
)
μ
+
(
∑
n
=
1
N
x
n
2
)
+
λ
0
μ
0
2
}
+
C
3
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
μ
2
−
2
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
)
μ
}
+
C
4
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
μ
2
−
2
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
(
λ
0
+
N
)
μ
}
+
C
4
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
(
μ
2
−
2
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
μ
)
}
+
C
4
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
(
μ
2
−
2
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
μ
+
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
)
2
−
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
)
2
)
}
+
C
4
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
(
μ
2
−
2
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
μ
+
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
)
2
)
}
+
C
5
=
−
E
τ
[
τ
]
2
{
(
λ
0
+
N
)
(
μ
−
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
)
2
}
+
C
5
=
−
1
2
{
(
λ
0
+
N
)
E
τ
[
τ
]
(
μ
−
λ
0
μ
0
+
∑
n
=
1
N
x
n
λ
0
+
N
)
2
}
+
C
5
{\displaystyle {\begin{aligned}\ln q_{\mu }^{*}(\mu )&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{\sum _{n=1}^{N}(x_{n}^{2}-2x_{n}\mu +\mu ^{2})+\lambda _{0}(\mu ^{2}-2\mu _{0}\mu +\mu _{0}^{2})\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{(\sum _{n=1}^{N}x_{n}^{2})-2(\sum _{n=1}^{N}x_{n})\mu +\sum _{n=1}^{N}\mu ^{2})+\lambda _{0}\mu ^{2}-2\lambda _{0}\mu _{0}\mu +\lambda _{0}\mu _{0}^{2})\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{(\lambda _{0}+N)\mu ^{2}-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu +(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\{(\lambda _{0}+N)\mu ^{2}-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu \}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}(\lambda _{0}+N)\mu \right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\mu \right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\mu +\left({\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}-\left({\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\mu +\left({\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{5}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu -{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right\}+C_{5}\\&=-{\frac {1}{2}}\left\{(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\left(\mu -{\frac {\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right\}+C_{5}\\\end{aligned}}}
به عبارت دیگر:
q
μ
∗
(
μ
)
∼
N
(
μ
|
μ
N
,
λ
N
−
1
)
μ
N
=
λ
0
μ
0
+
N
x
¯
λ
0
+
N
λ
N
=
(
λ
0
+
N
)
E
[
τ
]
x
¯
=
1
N
∑
n
=
1
N
x
n
{\displaystyle {\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu |\mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} [\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}}
بدست آوردن فاکتور
q
τ
∗
(
τ
)
{\displaystyle q_{\tau }^{*}(\tau )}
تا حد زیادی مشابه مراحل بالاست.
ln
q
τ
∗
(
τ
)
=
E
μ
[
ln
p
(
X
|
μ
,
τ
)
+
ln
p
(
μ
|
τ
)
]
+
ln
p
(
τ
)
+
constant
=
(
a
0
−
1
)
ln
τ
−
b
0
τ
+
N
2
ln
τ
−
τ
2
E
μ
[
∑
n
=
1
N
(
x
n
−
μ
)
2
+
λ
0
(
μ
−
μ
0
)
2
]
+
constant
{\displaystyle {\begin{aligned}\ln q_{\tau }^{*}(\tau )&=\operatorname {E} _{\mu }[\ln p(\mathbf {X} |\mu ,\tau )+\ln p(\mu |\tau )]+\ln p(\tau )+{\text{constant}}\\&=(a_{0}-1)\ln \tau -b_{0}\tau +{\frac {N}{2}}\ln \tau -{\frac {\tau }{2}}\operatorname {E} _{\mu }[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}]+{\text{constant}}\end{aligned}}}
با به توان رساندن دو طرف، توزیع نهایی به صورت یک توزیع گاما بدست می آید.
q
τ
∗
(
τ
)
∼
Gamma
(
τ
|
a
N
,
b
N
)
a
N
=
a
0
+
N
+
1
2
b
N
=
b
0
+
1
2
E
μ
[
∑
n
=
1
N
(
x
n
−
μ
)
2
+
λ
0
(
μ
−
μ
0
)
2
]
{\displaystyle {\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau |a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}}
الگوریتم محاسبه ی پارامترهای بهینه مسئله
ویرایش
بگذارید نتایجی را که از قسمت های قبل بدست آوردیم را یادآوری کنیم:
q
μ
∗
(
μ
)
∼
N
(
μ
∣
μ
N
,
λ
N
−
1
)
μ
N
=
λ
0
μ
0
+
N
x
¯
λ
0
+
N
λ
N
=
(
λ
0
+
N
)
E
[
τ
]
x
¯
=
1
N
∑
n
=
1
N
x
n
{\displaystyle {\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} [\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}}
و
q
τ
∗
(
τ
)
∼
Gamma
(
τ
∣
a
N
,
b
N
)
a
N
=
a
0
+
N
+
1
2
b
N
=
b
0
+
1
2
E
μ
[
∑
n
=
1
N
(
x
n
−
μ
)
2
+
λ
0
(
μ
−
μ
0
)
2
]
{\displaystyle {\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}}
در هر کدام از موارد فوق، امید روی یک پارامتر، وابسته به امید روی پارامترهای دیگر است. می توان این روابط را بر اساس روابط پایه آماری بسط داد.
E
[
τ
∣
a
N
,
b
N
]
=
a
N
b
N
E
[
μ
∣
μ
N
,
λ
N
−
1
]
=
μ
N
E
[
X
2
]
=
Var
(
X
)
+
(
E
[
X
]
)
2
E
[
μ
2
∣
μ
N
,
λ
N
−
1
]
=
λ
N
−
1
+
μ
N
2
{\displaystyle {\begin{aligned}\operatorname {E} [\tau \mid a_{N},b_{N}]&={\frac {a_{N}}{b_{N}}}\\\operatorname {E} [\mu \mid \mu _{N},\lambda _{N}^{-1}]&=\mu _{N}\\\operatorname {E} \left[X^{2}\right]&=\operatorname {Var} (X)+(\operatorname {E} [X])^{2}\\\operatorname {E} [\mu ^{2}\mid \mu _{N},\lambda _{N}^{-1}]&=\lambda _{N}^{-1}+\mu _{N}^{2}\end{aligned}}}
اعمال روابط فوق به پارامترها سر راست است. در اینجا تنها به توضیح رابطه ی مربوط به
b
N
{\displaystyle b_{N}}
می پردازیم.
b
N
=
b
0
+
1
2
E
μ
[
∑
n
=
1
N
(
x
n
−
μ
)
2
+
λ
0
(
μ
−
μ
0
)
2
]
=
b
0
+
1
2
E
μ
[
(
λ
0
+
N
)
μ
2
−
2
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
)
μ
+
(
∑
n
=
1
N
x
n
2
)
+
λ
0
μ
0
2
]
=
b
0
+
1
2
[
(
λ
0
+
N
)
E
μ
[
μ
2
]
−
2
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
)
E
μ
[
μ
]
+
(
∑
n
=
1
N
x
n
2
)
+
λ
0
μ
0
2
]
=
b
0
+
1
2
[
(
λ
0
+
N
)
(
λ
N
−
1
+
μ
N
2
)
−
2
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
)
μ
N
+
(
∑
n
=
1
N
x
n
2
)
+
λ
0
μ
0
2
]
{\displaystyle {\begin{aligned}b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\\&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[(\lambda _{0}+N)\mu ^{2}-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu +(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\operatorname {E} _{\mu }[\mu ^{2}]-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\operatorname {E} _{\mu }[\mu ]+(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)(\lambda _{N}^{-1}+\mu _{N}^{2})-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu _{N}+(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\\\end{aligned}}}
می توان پارامترهای دیگر را دیگر را به صورت زیر نوشت:
μ
N
=
λ
0
μ
0
+
N
x
¯
λ
0
+
N
λ
N
=
(
λ
0
+
N
)
a
N
b
N
x
¯
=
1
N
∑
n
=
1
N
x
n
a
N
=
a
0
+
N
+
1
2
b
N
=
b
0
+
1
2
[
(
λ
0
+
N
)
(
λ
N
−
1
+
μ
N
2
)
−
2
(
λ
0
μ
0
+
∑
n
=
1
N
x
n
)
μ
N
+
(
∑
n
=
1
N
x
n
2
)
+
λ
0
μ
0
2
]
{\displaystyle {\begin{aligned}\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N){\frac {a_{N}}{b_{N}}}\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)(\lambda _{N}^{-1}+\mu _{N}^{2})-2(\lambda _{0}\mu _{0}+\textstyle \sum _{n=1}^{N}x_{n})\mu _{N}+(\textstyle \sum _{n=1}^{N}x_{n}^{2})+\lambda _{0}\mu _{0}^{2}\right]\end{aligned}}}
در عبارات فوق به وابستگی روابط مربوط به
μ
N
{\displaystyle \mu _{N}}
,
λ
N
{\displaystyle \lambda _{N}}
و
b
N
{\displaystyle b_{N}}
به همدیگر توجه کنید که تشکیل یک الگوریتم حداکثر سازی امیدریاضی (به انگلیسی : expectation maximization ) می دهند. می توان مراحل اجرای الگوریتم را به صورت زیر خلاصه کرد:
با استفاده از
∑
n
=
1
N
x
n
{\displaystyle \sum _{n=1}^{N}x_{n}}
و
∑
n
=
1
N
x
n
2
.
{\displaystyle \sum _{n=1}^{N}x_{n}^{2}.}
مقادیر مربوط به
μ
N
{\displaystyle \mu _{N}}
و
a
N
.
{\displaystyle a_{N}.}
را حساب کنید.
پارامتر
λ
N
{\displaystyle \lambda _{N}}
را با مقداری اولیه، مقداردهی کنید.
با استفاده از پارامترهای مسئله و از جمله
λ
N
{\displaystyle \lambda _{N}}
، مقدار
b
N
{\displaystyle b_{N}}
را تخمین بزنید.
با استفاده از پارامترهای مسئله و از جمله
b
N
{\displaystyle b_{N}}
، مقدار
λ
N
{\displaystyle \lambda _{N}}
را تخمین بزنید.
مراحل فوق را تا رسیدن به همگرایی (جایی که هیچکدام از پارامترها دیگر تغییر زیادی نکنند.) انجام دهید.
می توان نشان داد که این بروز رسانی دوری تضمین شده است که به مقدار بهینه محلی همگرا خواهد شد. می توان اثبات کرد که چون توزیع حول هردو پارامتر و توزیع پسین نمایی است، حتماً به نقطه بهینه جهانی همگرا خواهد شد. نکته ظریف اینجاست این نقطه بهینه مربوط به مسئله با تقریب مستقل بودن توزیع پارامترهای مسئله است و در هر صورت نسبت جواب مسئله اصلی تقریبی است.
یک نمونه ی نسبتاً پیچیده تر
ویرایش
مدل مخلوط گوسی . مربع های کوچک نشان دهنده ی پارامترهای ثابت هستند و مربع های بزرگ نشان دهنده ی متغیرهای تصادفی هستند. مربع های توپر نشان دهنده ی مقادیر معلوم است. علامت نشان دهنده ی برداری به طول است. به معنی ماتریسی به اندازه ی است. به معنی یک متغیر با توزیع categorical با K دسته است.
فرض کنید یک نمونه مدل مخلوط گوسی به صورت زیر تعریف شده باشد:
π
∼
SymDir
(
K
,
α
0
)
Λ
i
=
1
…
K
∼
W
(
W
0
,
ν
0
)
μ
i
=
1
…
K
∼
N
(
μ
0
,
(
β
0
Λ
i
)
−
1
)
z
[
i
=
1
…
N
]
∼
Mult
(
1
,
π
)
x
i
=
1
…
N
∼
N
(
μ
z
i
,
Λ
z
i
−
1
)
K
=
number of mixing components
N
=
number of data points
{\displaystyle {\begin{aligned}\mathbf {\pi } &\sim \operatorname {SymDir} (K,\alpha _{0})\\\mathbf {\Lambda } _{i=1\dots K}&\sim {\mathcal {W}}(\mathbf {W} _{0},\nu _{0})\\\mathbf {\mu } _{i=1\dots K}&\sim {\mathcal {N}}(\mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{i})^{-1})\\\mathbf {z} [i=1\dots N]&\sim \operatorname {Mult} (1,\mathbf {\pi } )\\\mathbf {x} _{i=1\dots N}&\sim {\mathcal {N}}(\mathbf {\mu } _{z_{i}},{\mathbf {\Lambda } _{z_{i}}}^{-1})\\K&={\text{number of mixing components}}\\N&={\text{number of data points}}\end{aligned}}}
چند نکته:
توزیع
S
y
m
D
i
r
(
)
{\displaystyle SymDir()}
توزیع متقارن دیریکله با
K
{\displaystyle K}
بعد است که دارای فراپارامتر
α
0
{\displaystyle \alpha _{0}}
است. توزیع دیریکله ، توزیع مزدوج پیشین توزیع های categorical و multinomial است.
توزیع
W
(
)
{\displaystyle {\mathcal {W}}()}
توزیع ویشارت که توزیع مزدوج پیشین برای ماتریس دقت (عکس ماتریس کواریانس ) در توزیع نرمال چند متغیره است.
M
u
l
t
(
)
{\displaystyle Mult()}
توزیع چندجملهای روی یک مشاهده (معادل توزیع categorical) است.
N
(
)
{\displaystyle {\mathcal {N}}()}
توزیع نرمال چند متغیره است.
می توان توزیع مشترک روی متغیرهای مسئله را به صورت زیر نوشت:
p
(
X
,
Z
,
π
,
μ
,
Λ
)
=
p
(
X
|
Z
,
μ
,
Λ
)
p
(
Z
|
π
)
p
(
π
)
p
(
μ
|
Λ
)
p
(
Λ
)
{\displaystyle p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=p(\mathbf {X} |\mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )p(\mathbf {Z} |\mathbf {\pi } )p(\mathbf {\pi } )p(\mathbf {\mu } |\mathbf {\Lambda } )p(\mathbf {\Lambda } )}
می توان هر کدام از فاکتورهای مسئله را به صورت زیر ساده سازی کرد:
p
(
X
|
Z
,
μ
,
Λ
)
=
∏
n
=
1
N
∏
k
=
1
K
N
(
x
n
|
μ
k
,
Λ
k
−
1
)
z
n
k
p
(
Z
|
π
)
=
∏
n
=
1
N
∏
k
=
1
K
π
k
z
n
k
p
(
π
)
=
Γ
(
K
α
0
)
Γ
(
α
0
)
K
∏
k
=
1
K
π
k
α
0
−
1
p
(
μ
|
Λ
)
=
N
(
μ
k
|
m
0
,
(
β
0
Λ
k
)
−
1
)
p
(
Λ
)
=
W
(
Λ
k
|
W
0
,
ν
0
)
{\displaystyle {\begin{aligned}p(\mathbf {X} |\mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {x} _{n}|\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})^{z_{nk}}\\p(\mathbf {Z} |\mathbf {\pi } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}\pi _{k}^{z_{nk}}\\p(\mathbf {\pi } )&={\frac {\Gamma (K\alpha _{0})}{\Gamma (\alpha _{0})^{K}}}\prod _{k=1}^{K}\pi _{k}^{\alpha _{0}-1}\\p(\mathbf {\mu } |\mathbf {\Lambda } )&={\mathcal {N}}(\mathbf {\mu } _{k}|\mathbf {m} _{0},(\beta _{0}\mathbf {\Lambda } _{k})^{-1})\\p(\mathbf {\Lambda } )&={\mathcal {W}}(\mathbf {\Lambda } _{k}|\mathbf {W} _{0},\nu _{0})\end{aligned}}}
که در آن:
N
(
x
|
μ
,
Σ
)
=
1
(
2
π
)
D
/
2
1
|
Σ
|
1
/
2
exp
{
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
}
W
(
Λ
|
W
,
ν
)
=
B
(
W
,
ν
)
|
Λ
|
(
ν
−
D
−
1
)
/
2
exp
(
−
1
2
Tr
(
W
−
1
Λ
)
)
B
(
W
,
ν
)
=
|
W
|
−
ν
/
2
(
2
ν
D
/
2
π
D
(
D
−
1
)
/
4
∏
i
=
1
D
Γ
(
ν
+
1
−
i
2
)
)
−
1
D
=
dimensionality of each data point
{\displaystyle {\begin{aligned}{\mathcal {N}}(\mathbf {x} |\mathbf {\mu } ,\mathbf {\Sigma } )&={\frac {1}{(2\pi )^{D/2}}}{\frac {1}{|\mathbf {\Sigma } |^{1/2}}}\exp\{-{\frac {1}{2}}(\mathbf {x} -\mathbf {\mu } )^{\rm {T}}\mathbf {\Sigma } ^{-1}(\mathbf {x} -\mathbf {\mu } )\}\\{\mathcal {W}}(\mathbf {\Lambda } |\mathbf {W} ,\nu )&=B(\mathbf {W} ,\nu )|\mathbf {\Lambda } |^{(\nu -D-1)/2}\exp \left(-{\frac {1}{2}}\operatorname {Tr} (\mathbf {W} ^{-1}\mathbf {\Lambda } )\right)\\B(\mathbf {W} ,\nu )&=|\mathbf {W} |^{-\nu /2}(2^{\nu D/2}\pi ^{D(D-1)/4}\prod _{i=1}^{D}\Gamma ({\frac {\nu +1-i}{2}}))^{-1}\\D&={\text{dimensionality of each data point}}\end{aligned}}}
اگر فرض کنیم
q
(
Z
,
π
,
μ
,
Λ
)
=
q
(
Z
)
q
(
π
,
μ
,
Λ
)
{\displaystyle q(\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=q(\mathbf {Z} )q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )}
بنابرین:
ln
q
∗
(
Z
)
=
E
π
,
μ
,
Λ
[
ln
p
(
X
,
Z
,
π
,
μ
,
Λ
)
]
+
constant
=
E
π
[
ln
p
(
Z
|
π
)
]
+
E
μ
,
Λ
[
ln
p
(
X
|
Z
,
μ
,
Λ
)
]
+
constant
=
∑
n
=
1
N
∑
k
=
1
K
z
n
k
ln
ρ
n
k
+
constant
{\displaystyle {\begin{aligned}\ln q^{*}(\mathbf {Z} )&=\operatorname {E} _{\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\operatorname {E} _{\mathbf {\pi } }[\ln p(\mathbf {Z} |\mathbf {\pi } )]+\operatorname {E} _{\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} |\mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\sum _{n=1}^{N}\sum _{k=1}^{K}z_{nk}\ln \rho _{nk}+{\text{constant}}\end{aligned}}}
که آن تعریف کرده ایم:
ln
ρ
n
k
=
E
[
ln
π
k
]
+
1
2
E
[
ln
|
Λ
k
|
]
−
D
2
ln
(
2
π
)
−
1
2
E
μ
k
,
Λ
k
[
(
x
n
−
μ
k
)
T
Λ
k
(
x
n
−
μ
k
)
]
{\displaystyle \ln \rho _{nk}=\operatorname {E} [\ln \pi _{k}]+{\frac {1}{2}}\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]-{\frac {D}{2}}\ln(2\pi )-{\frac {1}{2}}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]}
با به توان رساندن هر دو طرف داریم:
q
∗
(
Z
)
∝
∏
n
=
1
N
∏
k
=
1
K
ρ
n
k
z
n
k
{\displaystyle q^{*}(\mathbf {Z} )\propto \prod _{n=1}^{N}\prod _{k=1}^{K}\rho _{nk}^{z_{nk}}}
به صورتی معادل می توان عبارت فوق را به صورت زیر نوشت:
q
∗
(
Z
)
=
∏
n
=
1
N
∏
k
=
1
K
r
n
k
z
n
k
{\displaystyle q^{*}(\mathbf {Z} )=\prod _{n=1}^{N}\prod _{k=1}^{K}r_{nk}^{z_{nk}}}
که در آن:
r
n
k
=
ρ
n
k
∑
j
=
1
K
ρ
n
j
{\displaystyle r_{nk}={\frac {\rho _{nk}}{\sum _{j=1}^{K}\rho _{nj}}}}
همچنین توجه کنید که
E
[
z
n
k
]
=
r
n
k
{\displaystyle \operatorname {E} [z_{nk}]=r_{nk}\,}
که به صورت طبیعی از توزیع categorical بدست می آید. با توجه به فاکتوریزه کردن
q
(
π
,
μ
,
Λ
)
{\displaystyle q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )}
به صورت
q
(
π
)
∏
k
=
1
K
q
(
μ
k
,
Λ
k
)
{\displaystyle q(\mathbf {\pi } )\prod _{k=1}^{K}q(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})}
می توان نوشت:
ln
q
∗
(
π
)
=
ln
p
(
π
)
+
E
Z
[
ln
p
(
Z
|
π
)
]
+
constant
=
(
α
0
−
1
)
∑
k
=
1
K
ln
π
k
+
∑
n
=
1
N
∑
k
=
1
K
r
n
k
ln
π
k
+
constant
{\displaystyle {\begin{aligned}\ln q^{*}(\mathbf {\pi } )&=\ln p(\mathbf {\pi } )+\operatorname {E} _{\mathbf {Z} }[\ln p(\mathbf {Z} |\mathbf {\pi } )]+{\text{constant}}\\&=(\alpha _{0}-1)\sum _{k=1}^{K}\ln \pi _{k}+\sum _{n=1}^{N}\sum _{k=1}^{K}r_{nk}\ln \pi _{k}+{\text{constant}}\end{aligned}}}
با به توان رساندن دو طرف می توان دید که
q
∗
(
π
)
{\displaystyle q^{*}(\mathbf {\pi } )}
دارای توزیع دریکله است.
q
∗
(
π
)
∼
Dir
(
α
)
{\displaystyle q^{*}(\mathbf {\pi } )\sim \operatorname {Dir} (\mathbf {\alpha } )\,}
که در آن
α
k
=
α
0
+
N
k
{\displaystyle \alpha _{k}=\alpha _{0}+N_{k}\,}
همچنین
N
k
=
∑
n
=
1
N
r
n
k
{\displaystyle N_{k}=\sum _{n=1}^{N}r_{nk}\,}
در نهایت داریم:
ln
q
∗
(
μ
k
,
Λ
k
)
=
ln
p
(
μ
k
,
Λ
k
)
+
∑
n
=
1
N
E
[
z
n
k
]
ln
N
(
x
n
|
μ
k
,
Λ
k
−
1
)
+
constant
{\displaystyle \ln q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})=\ln p(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})+\sum _{n=1}^{N}\operatorname {E} [z_{nk}]\ln {\mathcal {N}}(\mathbf {x} _{n}|\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})+{\text{constant}}}
می توان نتیجه کلی را به اینصورت نوشت:
q
∗
(
μ
k
,
Λ
k
)
=
N
(
μ
k
|
m
k
,
(
β
k
Λ
k
)
−
1
)
W
(
Λ
k
|
W
k
,
ν
k
)
{\displaystyle q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})={\mathcal {N}}(\mathbf {\mu } _{k}|\mathbf {m} _{k},(\beta _{k}\mathbf {\Lambda } _{k})^{-1}){\mathcal {W}}(\mathbf {\Lambda } _{k}|\mathbf {W} _{k},\nu _{k})}
که دارای پارامترهای زیر است:
β
k
=
β
0
+
N
k
m
k
=
1
β
k
(
β
0
m
0
+
N
k
x
¯
k
)
W
k
−
1
=
W
0
−
1
+
N
k
S
k
+
β
0
N
k
β
0
+
N
k
(
x
¯
k
−
m
0
)
(
x
¯
k
−
m
0
)
T
ν
k
=
ν
0
+
N
k
N
k
=
∑
n
=
1
N
r
n
k
x
¯
k
=
1
N
k
∑
n
=
1
N
r
n
k
x
n
S
k
=
1
N
k
∑
n
=
1
N
(
x
n
−
x
¯
k
)
(
x
n
−
x
¯
k
)
T
{\displaystyle {\begin{aligned}\beta _{k}&=\beta _{0}+N_{k}\\\mathbf {m} _{k}&={\frac {1}{\beta _{k}}}(\beta _{0}\mathbf {m} _{0}+N_{k}{\bar {\mathbf {x} }}_{k})\\\mathbf {W} _{k}^{-1}&=\mathbf {W} _{0}^{-1}+N_{k}\mathbf {S} _{k}+{\frac {\beta _{0}N_{k}}{\beta _{0}+N_{k}}}({\bar {\mathbf {x} }}_{k}-\mathbf {m} _{0})({\bar {\mathbf {x} }}_{k}-\mathbf {m} _{0})^{\rm {T}}\\\nu _{k}&=\nu _{0}+N_{k}\\N_{k}&=\sum _{n=1}^{N}r_{nk}\\{\bar {\mathbf {x} }}_{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}\mathbf {x} _{n}\\\mathbf {S} _{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})^{\rm {T}}\end{aligned}}}
E
μ
k
,
Λ
k
[
(
x
n
−
μ
k
)
T
Λ
k
(
x
n
−
μ
k
)
]
=
D
β
k
−
1
+
ν
k
(
x
n
−
m
k
)
T
W
k
(
x
n
−
m
k
)
ln
Λ
~
k
≡
E
[
ln
|
Λ
k
|
]
=
∑
i
=
1
D
ψ
(
ν
k
+
1
−
i
2
)
+
D
ln
2
+
ln
|
Λ
k
|
ln
π
~
k
≡
E
[
ln
|
π
k
|
]
=
ψ
(
α
k
)
−
ψ
(
∑
i
=
1
K
α
i
)
{\displaystyle {\begin{array}{rcccl}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]&&&=&D\beta _{k}^{-1}+\nu _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\\\ln {\tilde {\Lambda }}_{k}&\equiv &\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]&=&\sum _{i=1}^{D}\psi \left({\frac {\nu _{k}+1-i}{2}}\right)+D\ln 2+\ln |\mathbf {\Lambda } _{k}|\\\ln {\tilde {\pi }}_{k}&\equiv &\operatorname {E} \left[\ln |\pi _{k}|\right]&=&\psi (\alpha _{k})-\psi \left(\sum _{i=1}^{K}\alpha _{i}\right)\end{array}}}
r
n
k
∝
π
~
k
Λ
~
k
1
/
2
exp
{
−
D
2
β
k
−
ν
k
2
(
x
n
−
m
k
)
T
W
k
(
x
n
−
m
k
)
}
{\displaystyle r_{nk}\propto {\tilde {\pi }}_{k}{\tilde {\Lambda }}_{k}^{1/2}\exp \left\{-{\frac {D}{2\beta _{k}}}-{\frac {\nu _{k}}{2}}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\right\}}
با اجرای پی در پی مراحل بروز رسانی می توان مدل را آموزش داد:
محاسبه ی
r
n
k
{\displaystyle r_{nk}}
با استفاده از سایر پارامترها(E-step).
محاسبه ی
r
n
k
{\displaystyle r_{nk}}
با استفاده از سایر پارامترهای(M-step).