یادگیری عمیق: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Pouyan.J (بحث | مشارکت‌ها)
افزودن جزئیات بیشتر به نخستین موارد استفاده از لفظ یادگیری عمیق در بخش «تاریخچه»
Pouyan.J (بحث | مشارکت‌ها)
افزودن جزئیات بیشتر به پژوهش یان لی‌کان و افزودن شرحی پیرامون مدل Cresceptron در بخش «تاریخچه» + افزودن تصویر به بخش ابتدایی مقاله
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۱:
{{ادغام از|نساج شبکه‌های عصبی}}{{هوش مصنوعی}}
{{About||یادگیری سطحی دربرابر عمیق در روان‌شناسی آموزشی|رویکردهای دانش‌آموز به یادگیری|اطلاعات بیش‌تر|شبکه عصبی مصنوعی}}
{{About||یادگیری سطحی دربرابر عمیق در روان‌شناسی آموزشی|رویکردهای دانش‌آموز به یادگیری|اطلاعات بیش‌تر|شبکه عصبی مصنوعی}}'''یادگیری ژرف''' {{به انگلیسی|Deep learning}} (به بیانی دیگر: یادگیری ژرف ماشین، یادگیری ساختار ژرف یا یادگیری سلسله مراتبی) یک زیر شاخه از [[یادگیری ماشین]] و بر مبنای مجموعه‌ای از الگوریتم‌ها است که در تلاشند تا مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک [[گراف (ریاضی)|گراف]] عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و [[رفتار غیرخطی|غیرخطی]] هستند، مدل می‌کنند. به بیان دیگر پایه‌ی آن بر یادگیری [[نمایش دانش]] و ویژگی‌ها در لایه‌های مدل است.<ref>{{cite book
[[پرونده:MultiLayerNeuralNetworkBigger english.png|جایگزین=گرافی سلسله‌مراتبی، کامل، جهت‌دار و یک‌طرفه، تشکیل‌شده از سه رأس در ستون نخست، سه رأس در ستون دوم و دو رأس در ستون سوم. سه پیکان (یال جهت‌دار) با برچسب inputs درحال ورود به به رئوس لایه‌ی نخست هستند و دو پیکان نیز با برچسب outputs درحال خروج از لایه‌ی سوم. لایه‌ها نیز به ترتیب با برچسب‌های input layer و hidden layer و output layer نام‌گذاری شده‌اند.|بندانگشتی|چپ: لایه‌ی ورودی که در این مثال شامل سه نورون دریافت‌کننده است. راست: لایه‌ی خروجی با یک یا چند نورون خروجی (در این عکس دو عدد). لایه(ها)‌ی میانی، عموماً لایه(ها)‌ی پنهان نامیده‌شده و نه ورودی (برای دریافت داده‌های خام) هستند و نه خروجی (برای تحویل نتایج نهایی). [[شبکه عصبی مصنوعی|شبکه‌های عصبی]] عمیق از یک یا چند لایه‌ی پنهان تشکیل می‌شوند (توافقی جامع و مشخص برای تعیین حداقل تعداد لایه‌های مورد نیاز در یک شبکه‌ی عصبی عمیق وجود ندارد).]]
{{About||یادگیری سطحی دربرابر عمیق در روان‌شناسی آموزشی|رویکردهای دانش‌آموز به یادگیری|اطلاعات بیش‌تر|شبکه عصبی مصنوعی}}'''یادگیری ژرف''' {{به انگلیسی|Deep learning}} (به بیانی دیگر: یادگیری ژرف ماشین، یادگیری ساختار ژرف یا یادگیری سلسله مراتبی) یک زیر شاخه از [[یادگیری ماشین]] و بر مبنای مجموعه‌ای از الگوریتم‌ها است که در تلاشند تا مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک [[گراف (ریاضی)|گراف]] عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و [[رفتار غیرخطی|غیرخطی]] هستند، مدل می‌کنند. به بیان دیگر پایه‌ی آن بر یادگیری [[نمایش دانش]] و ویژگی‌ها در لایه‌های مدل است.<ref>{{cite book
|last1=Bengio
|first1=Y.
سطر ۲۳ ⟵ ۲۵:
 
== تعریف ==
یادگیری عمیق، رده‌ای از [[الگوریتم|الگوریتم‌های]] [[یادگیری ماشین]] است که<ref name="BOOK2014">{{cite journal|last1=Deng|first1=L.|last2=Yu|first2=D.|year=2014|title=Deep Learning: Methods and Applications|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|journal=Foundations and Trends in Signal Processing|volume=7|issue=3–4|pages=1–199|doi=10.1561/2000000039}}</ref>{{rp||pages=۱۹۹–۲۰۰}} که از چندین لایه برای استخراج ویژگی‌های سطح بالا از ورودی خام استفاده می‌کنند. به بیانی دیگر، رده‌ای از تکنیک‌های یادگیری ماشین که از چندین لایه‌ی پردازش اطلاعات و به‌ویژه [[سامانه غیرخطی|اطلاعات غیرخطی]] بهره می‌برد تا عملیات تبدیل یا [[استخراج ویژگی]] [[یادگیری با نظارت|نظارت‌شده]] یا [[یادگیری بی‌نظارت|نظارت‌نشده]] را عموماً با هدف تحلیل یا [[بازشناخت الگو]]، کلاس‌بندی، [[خوشه‌بندی]] انجام دهد.<ref>{{Cite journal|last=DengLi|last2=YuDong|date=2014-06-30|title=Deep Learning|url=https://dl.acm.org/doi/abs/10.1561/2000000039|journal=Foundations and Trends in Signal Processing|language=EN|doi=10.1561/2000000039}}</ref>
 
برای مثال، در [[پردازش تصویر]]، لایه‌های پست‌تر می‌توانند لبه‌ها را تشخیص دهند، در حالی که لایه‌های عالی‌تر ممکن است ویژگی‌های پرمعناتر برای انسان، همچون حروف یا چهره‌ها، را تشخیص دهند.
سطر ۳۶ ⟵ ۳۸:
لفظ ''یادگیری عمیق''، نخستین‌بار در ۱۹۸۶ و توسط [[رینا دِختِر]] در زمینه‌ی یادگیری ماشین به کار رفت؛ وی در مقاله‌ای تحت عنوان ''یادگیری به هنگام [[الگوریتم جستجو|جستجو]] در [[مسائل ارضای محدودیت]]'' (Learning While Searching in Constraint-Satisfaction-Problems) از این لفظ برای پروسه‌ای استفاده کرد که در آن تمامی راه‌حل‌ها در یک فضای جستجو که به پاسخ مناسب نمی‌رسیدند نیز ذخیره می‌شدند. تحلیل این راه‌حل‌های ذخیره‌شده امکان کنترل بهتر در تلاش‌های بعدی را ممکن می‌ساخت، و به دنبال آن در همان مراحل نخستین از گیر کردن در بن‌بست‌های احتمالی نیز جلوگیری می‌کرد.<ref>Rina Dechter (1986). [http://fmdb.cs.ucla.edu/Treports/860049.pdf ''Learning while searching in constraint-satisfaction problems'']. (PDF) University of California, Computer Science Department, Cognitive Systems Laboratory.</ref><ref>{{Cite journal|last=Schmidhuber|first=Juergen|date=2015-11-28|title=Deep Learning|url=http://www.scholarpedia.org/article/Deep_Learning|journal=Scholarpedia|language=en|volume=10|issue=11|pages=32832|doi=10.4249/scholarpedia.32832|issn=1941-6016}}</ref> با این وجود امروزه لفظ یادگیری عمیق عموماً در حوزه‌ی [[شبکه عصبی مصنوعی|شبکه‌های عصبی مصنوعی]] به کار می‌رود که نخستین‌بار در سال ۲۰۰۰ و توسط ایگور آیزنبرگ و همکاران در حوزه‌ی یادشده استفاده شد؛ به طور دقیق‌تر، در کتاب ''نورون‌های دودویی چندمقداری و جهانی: نظریه، یادگیری و کاربردها'' (Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications) و در زمینه‌ی نورون‌های حدآستانه‌ی [[شبکه بولی|بولی]].<ref>{{Cite journal|last=Aizenberg|first=Igor N.|last2=Aizenberg|first2=Naum N.|last3=Vandewalle|first3=Joos|date=2000|title=Multi-Valued and Universal Binary Neurons|url=http://dx.doi.org/10.1007/978-1-4757-3115-6|doi=10.1007/978-1-4757-3115-6}}</ref><ref>{{Cite journal|last=Gomez|first=Faustino J.|last2=Schmidhuber|first2=Jürgen|date=2005|title=Co-evolving recurrent neurons learn deep memory POMDPs|url=http://dx.doi.org/10.1145/1068009.1068092|journal=Proceedings of the 2005 conference on Genetic and evolutionary computation - GECCO '05|location=New York, New York, USA|publisher=ACM Press|doi=10.1145/1068009.1068092|isbn=1-59593-010-8}}</ref>
 
در ۱۹۸۹، [[یان لی کان|یان لی‌کان]] و همکاران الگوریتم استاندارد [[پس‌انتشار]] را برای یک شبکه‌ی عصبی عمیق با هدف [[تشخیص دست خط|تشخیص متن‌های دست‌نویس]] (به طور خاص با هدف بازشناسی کدهای پستی دست‌نویس روی نامه‌های پستی) به کار بست. درحالی که الگوریتم کار کرد، عملیات یادگیری آن به سه روز زمان نیاز داشت. مدل مورد استفاده از یک لایه‌ی ورودی با ۲۵۶ واحد (پیکسل‌های یک تصویر مربعی ۱۶×۱۶)، یک لایه‌ی خروجی با ۱۰ واحد (که مشخص می‌کرد تصویر رقمی که به ورودی داده‌شده است، کدام یک از ارقام ۰ تا ۹ است) و سه لایه‌ی پنهان در میان این دو تشکیل شده بود. با ارزیابی مدل بر روی مجموعه‌داده‌ی تست، ۸/۱٪ رده‌بندی اشتباه و ۱۹/۴٪ بازپس‌زنی برای ۱٪ نرخ خطا در میان الگوهای تست باقی‌مانده به دست آمد که نشان می‌داد که این مدل نسبت به مدل‌های ارائه‌شده‌ی پیشین از دقت بالاتری برخوردار است و استفاده از الگوریتم پس‌انتشار، روشی مناسب در فرآیند تعلیم شبکه‌های عصبی عمیق است.<ref>{{Cite journal|last=LeCun|first=Y.|last2=Boser|first2=B.|last3=Denker|first3=J. S.|last4=Henderson|first4=D.|last5=Howard|first5=R. E.|last6=Hubbard|first6=W.|last7=Jackel|first7=L. D.|date=1989-12|title=Backpropagation Applied to Handwritten Zip Code Recognition|url=http://dxyann.doilecun.orgcom/10.1162exdb/necopublis/pdf/lecun-89e.1989.1.4.541pdf|journal=Neural Computation|volume=1|issue=4|pages=541–551|doi=10.1162/neco.1989.1.4.541|issn=0899-7667|via=}}</ref> لازم به ذکر است که خود الگوریتم پس‌انتشارپس‌انتشار، از پیش و از ۱۹۷۰ نیز به عنوان حالت معکوس مشتق خودکار وجود داشت.<ref>{{Cite journal|last=Linnainmaa|first=Seppo|date=1976-06|title=Taylor expansion of the accumulated rounding error|url=http://dx.doi.org/10.1007/bf01931367|journal=BIT|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|issn=0006-3835}}</ref><ref>Griewank, Andreas. "Who invented the reverse mode of differentiation." ''Documenta Mathematica, Extra Volume ISMP'' (2012): 389-400. (PDF) https://www.math.uni-bielefeld.de/documenta/vol-ismp/52_griewank-andreas-b.pdf</ref>
 
تا سال ۱۹۹۱، چنین سیستم‌هایی عموماً برای تشخیص ارقام دوبُعدی دست‌نویس ایزوله‌شده (به این معنا که ارقام به صورت تنها و بدون جزئیات و ویژگی‌های اضافه‌ی دیگری در پس‌زمینه - مثلاً متن و حروف اضافه - نوشته‌شده‌اند) به کار می‌رفتند؛ درحالی که بازشناسی اجسام سه‌بُعدی همچنان یک چالش بود. در سال ۱۹۹۲، پژوهشی از جان ونگ و همکاران با توضیح معایب و محدودیت‌های شبکه‌های عصبی سه‌لایه‌ای که برای این منظور به کار می‌رفتند، از مفهوم ''شبکه‌ی سلسله‌مراتبی'' (به انگلیسی: hierarchical network) استفاده کرده و مدلی موسوم به Cresceptron را ارائه دادند که قادر بود اجسام سه‌بعدی در محیط‌های شلوغ را نیز تشخیص دهد.<ref>J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol I, pp. 576-581, June, 1992.</ref><ref>J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121-128, May, 1993.</ref><ref>J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref> مفهوم [[شبکه عصبی پیچشی#لایه‌های ادغام|تجمیع حداکثری]] (به انگلیسی: max pooling) نیز نخستین‌بار در همین پژوهش پیاده‌سازی شد.{{مدرک|date=نوامبر ۲۰۲۰}} از آن‌جایی که این مدل می‌توانست مستقیماً تصاویر طبیعی (سوژه‌های سه‌بعدی، با حضور عناصر دیگر در پس‌زمینه) را به عنوان ورودی دریافت کند، تبدیل به بنیانی برای یادگیری بصری همه‌منظوره شد.
 
== کاربردها ==