گرادیان کاهشی تصادفی: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
بدون خلاصۀ ویرایش |
بدون خلاصۀ ویرایش |
||
خط ۴۴:
== بسط ==
تا به حال چندین روش نوین برای کاهش سریعتر گرادیان کاهشی ابداع شده که ذیلاً بعضی مورد بررسی قرار گرفتهاند.<ref name="Rumelhart19862">{{cite journal|last=Rumelhart|first=David E.|author2=Hinton, Geoffrey E.|author3=Williams, Ronald J.|date=8 October 1986|title=Learning representations by back-propagating errors|journal=Nature|volume=323|issue=6088|pages=533–536|bibcode=1986Natur.323..533R|doi=10.1038/323533a0}}</ref><ref name=":0">{{cite journal|last1=Polyak|first1=Boris T.|last2=Juditsky|first2=Anatoli B.|year=1992|title=Acceleration of stochastic approximation by averaging|url=http://www.meyn.ece.ufl.edu/archive/spm_files/Courses/ECE555-2011/555media/poljud92.pdf|journal=SIAM J. Control Optim.|volume=30|issue=4|pages=838–855|doi=10.1137/0330046}}</ref><ref name="duchi">{{cite journal|last1=Duchi|first1=John|last2=Hazan|first2=Elad|last3=Singer|first3=Yoram|date=|year=2011|title=Adaptive subgradient methods for online learning and stochastic optimization|url=http://jmlr.org/papers/volume12/duchi11a/duchi11a.pdf|journal=
=== تکانه (Momentum) ===
خط ۸۸:
: <math>\theta=\theta-\frac{\alpha}{\sqrt{v(\theta,t)}}\nabla \mathcal{J}_i(\theta)</math>
این روش نتایج بسیار خوبی برای مسائل مختلف بهینهسازی دادهاست.<ref>{{Cite web|url=http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf|title=Overview of mini-batch gradient descent|last=Hinton|first=Geoffrey
=== Adam ===
|