گرادیان کاهشی تصادفی: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
بدون خلاصۀ ویرایش |
بدون خلاصۀ ویرایش |
||
خط ۹۳:
این روش مشابه روش RMSProp است با این تفاوت که هم از میانگین گرادیان و هم از گشتاورهای دوم آن به شکل پایین استفاده میشود.<ref name="Adam2014" />
{{وسطچین}}
\\<math>m_\theta ^ {(t+1)} \leftarrow \beta_1 m_\theta ^ {(t)} + (1 - \beta_1) \nabla _\theta J ^ {(t)} </math>
\\<math>v_\theta ^ {(t+1)} \leftarrow \beta_2 v_\theta ^ {(t)} + (1 - \beta_2) (\nabla _\theta J ^ {(t)} )^2 </math>
\\<math>\hat{m}_\theta = \frac{m_\theta ^ {(t+1)}}{1 - (\beta_1) ^{t+1}} </math>
\\<math>\hat{v}_\theta = \frac{ v_\theta ^ {(t+1)}}{1 - (\beta_2) ^{t+1}} </math>
\\<math>\theta ^ {(t+1)} \leftarrow \theta ^ {(t)} - \alpha \frac{\hat{m}_\theta}{\sqrt{\hat{v}_\theta} + \epsilon} </math>
{{پایان وسطچین}}
در اینجا <math>\epsilon </math> برای جلوگیری از صفر شدن مخرج است، <math>\beta_1 </math> و <math>\beta_2 </math> ضرایب فراموشی گرادیان و گشتاور دومن گرادیان هستند. مربع گرادیانها مولفهای است.
|