گرادیان کاهشی تصادفی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
بدون خلاصۀ ویرایش
بدون خلاصۀ ویرایش
خط ۹۳:
این روش مشابه روش RMSProp است با این تفاوت که هم از میانگین گرادیان و هم از گشتاورهای دوم آن به شکل پایین استفاده می‌شود.<ref name="Adam2014" />
{{وسط‌چین}}
\\<math>m_\theta ^ {(t+1)} \leftarrow \beta_1 m_\theta ^ {(t)} + (1 - \beta_1) \nabla _\theta J ^ {(t)} </math>
\\<math>v_\theta ^ {(t+1)} \leftarrow \beta_2 v_\theta ^ {(t)} + (1 - \beta_2) (\nabla _\theta J ^ {(t)} )^2 </math>
\\<math>\hat{m}_\theta = \frac{m_\theta ^ {(t+1)}}{1 - (\beta_1) ^{t+1}} </math>
\\<math>\hat{v}_\theta = \frac{ v_\theta ^ {(t+1)}}{1 - (\beta_2) ^{t+1}} </math>
\\<math>\theta ^ {(t+1)} \leftarrow \theta ^ {(t)} - \alpha \frac{\hat{m}_\theta}{\sqrt{\hat{v}_\theta} + \epsilon} </math>
{{پایان وسط‌چین}}
در اینجا <math>\epsilon </math> برای جلوگیری از صفر شدن مخرج است، <math>\beta_1 </math> و <math>\beta_2 </math> ضرایب فراموشی گرادیان و گشتاور دومن گرادیان هستند. مربع گرادیان‌ها مولفه‌ای است.