یادگیری عمیق: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
افزودن جزئیات بیشتر به نخستین موارد استفاده از لفظ یادگیری عمیق در بخش «تاریخچه» |
افزودن جزئیات بیشتر به پژوهش یان لیکان و افزودن شرحی پیرامون مدل Cresceptron در بخش «تاریخچه» + افزودن تصویر به بخش ابتدایی مقاله برچسبها: متن دارای ویکیمتن نامتناظر ویرایشگر دیداری |
||
خط ۱:
{{ادغام از|نساج شبکههای عصبی}}{{هوش مصنوعی}}
{{About||یادگیری سطحی دربرابر عمیق در روانشناسی آموزشی|رویکردهای دانشآموز به یادگیری|اطلاعات بیشتر|شبکه عصبی مصنوعی}}
{{About||یادگیری سطحی دربرابر عمیق در روانشناسی آموزشی|رویکردهای دانشآموز به یادگیری|اطلاعات بیشتر|شبکه عصبی مصنوعی}}'''یادگیری ژرف''' {{به انگلیسی|Deep learning}} (به بیانی دیگر: یادگیری ژرف ماشین، یادگیری ساختار ژرف یا یادگیری سلسله مراتبی) یک زیر شاخه از [[یادگیری ماشین]] و بر مبنای مجموعهای از الگوریتمها است که در تلاشند تا مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک [[گراف (ریاضی)|گراف]] عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و [[رفتار غیرخطی|غیرخطی]] هستند، مدل میکنند. به بیان دیگر پایهی آن بر یادگیری [[نمایش دانش]] و ویژگیها در لایههای مدل است.<ref>{{cite book▼
[[پرونده:MultiLayerNeuralNetworkBigger english.png|جایگزین=گرافی سلسلهمراتبی، کامل، جهتدار و یکطرفه، تشکیلشده از سه رأس در ستون نخست، سه رأس در ستون دوم و دو رأس در ستون سوم. سه پیکان (یال جهتدار) با برچسب inputs درحال ورود به به رئوس لایهی نخست هستند و دو پیکان نیز با برچسب outputs درحال خروج از لایهی سوم. لایهها نیز به ترتیب با برچسبهای input layer و hidden layer و output layer نامگذاری شدهاند.|بندانگشتی|چپ: لایهی ورودی که در این مثال شامل سه نورون دریافتکننده است. راست: لایهی خروجی با یک یا چند نورون خروجی (در این عکس دو عدد). لایه(ها)ی میانی، عموماً لایه(ها)ی پنهان نامیدهشده و نه ورودی (برای دریافت دادههای خام) هستند و نه خروجی (برای تحویل نتایج نهایی). [[شبکه عصبی مصنوعی|شبکههای عصبی]] عمیق از یک یا چند لایهی پنهان تشکیل میشوند (توافقی جامع و مشخص برای تعیین حداقل تعداد لایههای مورد نیاز در یک شبکهی عصبی عمیق وجود ندارد).]]
▲
|last1=Bengio
|first1=Y.
سطر ۲۳ ⟵ ۲۵:
== تعریف ==
یادگیری عمیق، ردهای از [[الگوریتم|الگوریتمهای]] [[یادگیری ماشین]] است
برای مثال، در [[پردازش تصویر]]، لایههای پستتر میتوانند لبهها را تشخیص دهند، در حالی که لایههای عالیتر ممکن است ویژگیهای پرمعناتر برای انسان، همچون حروف یا چهرهها، را تشخیص دهند.
سطر ۳۶ ⟵ ۳۸:
لفظ ''یادگیری عمیق''، نخستینبار در ۱۹۸۶ و توسط [[رینا دِختِر]] در زمینهی یادگیری ماشین به کار رفت؛ وی در مقالهای تحت عنوان ''یادگیری به هنگام [[الگوریتم جستجو|جستجو]] در [[مسائل ارضای محدودیت]]'' (Learning While Searching in Constraint-Satisfaction-Problems) از این لفظ برای پروسهای استفاده کرد که در آن تمامی راهحلها در یک فضای جستجو که به پاسخ مناسب نمیرسیدند نیز ذخیره میشدند. تحلیل این راهحلهای ذخیرهشده امکان کنترل بهتر در تلاشهای بعدی را ممکن میساخت، و به دنبال آن در همان مراحل نخستین از گیر کردن در بنبستهای احتمالی نیز جلوگیری میکرد.<ref>Rina Dechter (1986). [http://fmdb.cs.ucla.edu/Treports/860049.pdf ''Learning while searching in constraint-satisfaction problems'']. (PDF) University of California, Computer Science Department, Cognitive Systems Laboratory.</ref><ref>{{Cite journal|last=Schmidhuber|first=Juergen|date=2015-11-28|title=Deep Learning|url=http://www.scholarpedia.org/article/Deep_Learning|journal=Scholarpedia|language=en|volume=10|issue=11|pages=32832|doi=10.4249/scholarpedia.32832|issn=1941-6016}}</ref> با این وجود امروزه لفظ یادگیری عمیق عموماً در حوزهی [[شبکه عصبی مصنوعی|شبکههای عصبی مصنوعی]] به کار میرود که نخستینبار در سال ۲۰۰۰ و توسط ایگور آیزنبرگ و همکاران در حوزهی یادشده استفاده شد؛ به طور دقیقتر، در کتاب ''نورونهای دودویی چندمقداری و جهانی: نظریه، یادگیری و کاربردها'' (Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications) و در زمینهی نورونهای حدآستانهی [[شبکه بولی|بولی]].<ref>{{Cite journal|last=Aizenberg|first=Igor N.|last2=Aizenberg|first2=Naum N.|last3=Vandewalle|first3=Joos|date=2000|title=Multi-Valued and Universal Binary Neurons|url=http://dx.doi.org/10.1007/978-1-4757-3115-6|doi=10.1007/978-1-4757-3115-6}}</ref><ref>{{Cite journal|last=Gomez|first=Faustino J.|last2=Schmidhuber|first2=Jürgen|date=2005|title=Co-evolving recurrent neurons learn deep memory POMDPs|url=http://dx.doi.org/10.1145/1068009.1068092|journal=Proceedings of the 2005 conference on Genetic and evolutionary computation - GECCO '05|location=New York, New York, USA|publisher=ACM Press|doi=10.1145/1068009.1068092|isbn=1-59593-010-8}}</ref>
در ۱۹۸۹، [[یان لی کان|یان لیکان]] و همکاران الگوریتم استاندارد [[پسانتشار]] را برای یک شبکهی عصبی عمیق با هدف [[تشخیص دست خط|تشخیص متنهای دستنویس]] (به طور خاص با هدف بازشناسی کدهای پستی دستنویس روی نامههای پستی) به کار بست. درحالی که الگوریتم کار کرد، عملیات یادگیری آن به سه روز زمان نیاز داشت. مدل مورد استفاده از یک لایهی ورودی با ۲۵۶ واحد (پیکسلهای یک تصویر مربعی ۱۶×۱۶)، یک لایهی خروجی با ۱۰ واحد (که مشخص میکرد تصویر رقمی که به ورودی دادهشده است، کدام یک از ارقام ۰ تا ۹ است) و سه لایهی پنهان در میان این دو تشکیل شده بود. با ارزیابی مدل بر روی مجموعهدادهی تست، ۸/۱٪ ردهبندی اشتباه و ۱۹/۴٪ بازپسزنی برای ۱٪ نرخ خطا در میان الگوهای تست باقیمانده به دست آمد که نشان میداد که این مدل نسبت به مدلهای ارائهشدهی پیشین از دقت بالاتری برخوردار است و استفاده از الگوریتم پسانتشار، روشی مناسب در فرآیند تعلیم شبکههای عصبی عمیق است.<ref>{{Cite journal|last=LeCun|first=Y.|last2=Boser|first2=B.|last3=Denker|first3=J. S.|last4=Henderson|first4=D.|last5=Howard|first5=R. E.|last6=Hubbard|first6=W.|last7=Jackel|first7=L. D.|date=1989
تا سال ۱۹۹۱، چنین سیستمهایی عموماً برای تشخیص ارقام دوبُعدی دستنویس ایزولهشده (به این معنا که ارقام به صورت تنها و بدون جزئیات و ویژگیهای اضافهی دیگری در پسزمینه - مثلاً متن و حروف اضافه - نوشتهشدهاند) به کار میرفتند؛ درحالی که بازشناسی اجسام سهبُعدی همچنان یک چالش بود. در سال ۱۹۹۲، پژوهشی از جان ونگ و همکاران با توضیح معایب و محدودیتهای شبکههای عصبی سهلایهای که برای این منظور به کار میرفتند، از مفهوم ''شبکهی سلسلهمراتبی'' (به انگلیسی: hierarchical network) استفاده کرده و مدلی موسوم به Cresceptron را ارائه دادند که قادر بود اجسام سهبعدی در محیطهای شلوغ را نیز تشخیص دهد.<ref>J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol I, pp. 576-581, June, 1992.</ref><ref>J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121-128, May, 1993.</ref><ref>J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref> مفهوم [[شبکه عصبی پیچشی#لایههای ادغام|تجمیع حداکثری]] (به انگلیسی: max pooling) نیز نخستینبار در همین پژوهش پیادهسازی شد.{{مدرک|date=نوامبر ۲۰۲۰}} از آنجایی که این مدل میتوانست مستقیماً تصاویر طبیعی (سوژههای سهبعدی، با حضور عناصر دیگر در پسزمینه) را به عنوان ورودی دریافت کند، تبدیل به بنیانی برای یادگیری بصری همهمنظوره شد.
== کاربردها ==
|