یادگیری عمیق

یادگیری عمیق که در زبان فارسی به یادگیری ژرف نیز ترجمه شده است، (به انگلیسی: Deep learning) (به بیانی دیگر: یادگیری ژرف ماشین، یادگیری ساختار ژرف یا یادگیری سلسله مراتبی) یک زیر شاخه از یادگیری ماشین و بر مبنای مجموعه‌ای از الگوریتم‌ها است که در تلاشند تا مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک گراف عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و غیرخطی هستند، مدل می‌کنند. به بیان دیگر پایه‌ی آن بر یادگیری نمایش دانش و ویژگی‌ها در لایه‌های مدل است.[۱]

گرافی سلسله‌مراتبی، کامل، جهت‌دار و یک‌طرفه، تشکیل‌شده از سه رأس در ستون نخست، سه رأس در ستون دوم و دو رأس در ستون سوم. سه پیکان (یال جهت‌دار) با برچسب inputs درحال ورود به به رئوس لایه‌ی نخست هستند و دو پیکان نیز با برچسب outputs درحال خروج از لایه‌ی سوم. لایه‌ها نیز به ترتیب با برچسب‌های input layer و hidden layer و output layer نام‌گذاری شده‌اند.
چپ: لایه‌ی ورودی که در این مثال شامل سه نورون دریافت‌کننده است. راست: لایه‌ی خروجی با یک یا چند نورون خروجی (در این عکس دو عدد). لایه(ها)‌ی میانی، عموماً لایه(ها)‌ی پنهان نامیده‌شده و نه ورودی (برای دریافت داده‌های خام) هستند و نه خروجی (برای تحویل نتایج نهایی). شبکه‌های عصبی عمیق از یک یا چند لایه‌ی پنهان تشکیل می‌شوند (توافقی جامع و مشخص برای تعیین حداقل تعداد لایه‌های مورد نیاز در یک شبکه‌ی عصبی عمیق وجود ندارد).

یک نمونه آموزشی (برای نمونه: تصویر یک گربه) می‌تواند به صورت‌های گوناگون بسان یک بردار ریاضی پر شده از مقدار به ازای هر پیکسل و در دید کلی‌تر به شکل یک مجموعه از زیرشکل‌های کوچک‌تر (نظیر اعضای صورت گربه) مدل‌سازی شود. برخی از این روش‌های مدل‌سازی سبب ساده شدن فرایند یادگیری ماشین (برای نمونه: تشخیص تصویر گربه) می‌شوند. در یادگیری ژرف امید به جایگزینی استخراج این ویژگی‌های تصویر به دست بشر (مانند اعضای گربه) با روش‌های کامل‌خودکار بی‌نظارت و نیمه‌نظارتی وجود دارد.[۲]

انگیزه‌ی نخستین در به وجود آمدن این ساختار یادگیری از راه بررسی ساختار عصبی در مغز انسان الهام گرفته شده‌است که در آن یاخته‌های عصبی با فرستادن پیام به یکدیگر درک را امکان‌پذیر می‌کنند.[۳] بسته به فرض‌های گوناگون در مورد نحوهٔ اتصال این یاخته‌های عصبی، مدل‌ها و ساختارهای مختلفی در این حوزه پیشنهاد و بررسی شده‌اند، هرچند که این مدل‌ها به صورت طبیعی در مغز انسان وجود ندارد و مغز انسان پیچیدگی‌های بیشتری را دارا است. این مدل‌ها نظیر شبکه عصبی عمیق، شبکه عصبی هم‌گشتی، شبکه باور عمیق و... پیشرفت‌های خوبی را در حوزه‌های پردازش زبان‌های طبیعی، پردازش تصویر ایجاد کرده‌اند.

در حقیقت عبارت یادگیری عمیق، بررسی روش‌های تازه برای شبکه عصبی مصنوعی است.[۴][۵]

تعریفویرایش

یادگیری عمیق، رده‌ای از الگوریتم‌های یادگیری ماشین است[۶](pp۱۹۹–۲۰۰) که از چندین لایه برای استخراج ویژگی‌های سطح بالا از ورودی خام استفاده می‌کنند. به بیانی دیگر، رده‌ای از تکنیک‌های یادگیری ماشین که از چندین لایه‌ی پردازش اطلاعات و به‌ویژه اطلاعات غیرخطی بهره می‌برد تا عملیات تبدیل یا استخراج ویژگی نظارت‌شده یا نظارت‌نشده را عموماً با هدف تحلیل یا بازشناخت الگو، کلاس‌بندی، خوشه‌بندی انجام دهد.[۷]

برای مثال، در پردازش تصویر، لایه‌های پست‌تر می‌توانند لبه‌ها را تشخیص دهند، در حالی که لایه‌های عالی‌تر ممکن است ویژگی‌های پرمعناتر برای انسان، همچون حروف یا چهره‌ها، را تشخیص دهند.

 
نمایی از چگونگی استخراج ویژگی جهت کلاس‌بندی تصاویر با روش یادگیری عمیق[۸]

مفهومویرایش

یادگیری عمیق زیرشاخه‌ای از یادگیری ماشین است که از لایه‌های متعدد تبدیلات خطی به منظور پردازش سیگنال‌های حسی مانند صدا و تصویر استفاده می‌کند. ماشین در این روش هر مفهوم پیچیده را به مفاهیم ساده‌تری تقسیم می‌کند، و با ادامه‌ی این روند به مفاهیم پایه‌ای می‌رسد که قادر به تصمیم‌گیری برای آن‌ها است و بدین ترتیب نیازی به نظارت کامل انسان برای مشخص کردن اطلاعات لازم ماشین در هر لحظه نیست. موضوعی که در یادگیری عمیق اهمیت زیادی دارد، نحوه‌ی ارائه‌ی اطلاعات است. ارائه دادن اطلاعات به ماشین باید به شیوه‌ای باشد که ماشین در کمترین زمان اطلاعات کلیدی را که می‌تواند با استناد به آن‌ها تصمیم بگیرد را دریافت کند. هنگام طراحی الگوریتم‌های یادگیری عمیق می‌بایست به عوامل دگرگونی (به انگلیسی: factors of variation) که اطلاعات مشاهده شده را توضیح می‌دهند توجه کنیم، این عوامل معمولاً عوامل قابل‌مشاهده‌ای نیستند بلکه عواملی هستند که بر روی دسته‌ی قابل‌مشاهده تأثیرگذار بوده یا زاده‌ی ساختارهای ذهنی انسان برای ساده‌تر کردن مسائل هستند. برای مثال در هنگام پردازش گفتار عوامل دگرگونی می‌توانند لهجه‌ی گوینده، سن یا جنسیت او باشند. در هنگام پردازش تصویر یک ماشین، میزان درخشش خورشید یک عامل دگرگونی است. یکی از مشکلات هوش مصنوعی تأثیر زیاد عوامل دگرگونی بر روی اطلاعات دریافتی است. برای مثال بسیاری از پیکسل‌های دریافتی از یک ماشین قرمز در شب ممکن است سیاه دیده بشوند. برای حل این مشکلات بعضاً به درک بالای اطلاعات (در حدود انسان) نیازمندیم و در واقع گاهی یافتن نحوه‌ی مناسب نمایش اطلاعات به اندازه‌ی خود مسئله سخت و زمان‌بر است.

تاریخچهویرایش

نخستین الگوریتم عملی یادگیرنده برای پرسپترون‌های چندلایه‌ی نظارت‌شده، ژرف و پیش‌خور، در دهه‌ی ۱۹۶۰ توسط الکسی ایواخننکو - معروف به «پدر یادگیری عمیق»[۹] - و والنتن لاپا منتشر شد.[۱۰] در سال ۱۹۷۱، مقاله‌ای یک شبکه‌ی ژرف با هشت لایه را توصیف کرد که عملیات یادگیری را با متد گروهی مدیریت داده (GMDH) انجام داده بود.[۱۱] سایر معماری‌های یادگیری عمیق و به ویژه آن‌هایی که برای بینایی رایانه ساخته شده بودند، در ۱۹۸۰ و با Neocognitron معرفی‌شده توسط کونیهیکو فوکوشیما آغاز گشتند.[۱۲]

لفظ یادگیری عمیق، نخستین‌بار در ۱۹۸۶ و توسط رینا دِختِر در زمینه‌ی یادگیری ماشین به کار رفت؛ وی در مقاله‌ای تحت عنوان یادگیری به هنگام جستجو در مسائل ارضای محدودیت (Learning While Searching in Constraint-Satisfaction-Problems) از این لفظ برای پروسه‌ای استفاده کرد که در آن تمامی راه‌حل‌ها در یک فضای جستجو که به پاسخ مناسب نمی‌رسیدند نیز ذخیره می‌شدند. تحلیل این راه‌حل‌های ذخیره‌شده امکان کنترل بهتر در تلاش‌های بعدی را ممکن می‌ساخت، و به دنبال آن در همان مراحل نخستین از گیر کردن در بن‌بست‌های احتمالی نیز جلوگیری می‌کرد.[۱۳][۱۴] با این وجود امروزه لفظ یادگیری عمیق عموماً در حوزه‌ی شبکه‌های عصبی مصنوعی به کار می‌رود که نخستین‌بار در سال ۲۰۰۰ و توسط ایگور آیزنبرگ و همکاران در حوزه‌ی یادشده استفاده شد؛ به طور دقیق‌تر، در کتاب نورون‌های دودویی چندمقداری و جهانی: نظریه، یادگیری و کاربردها (Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications) و در زمینه‌ی نورون‌های حدآستانه‌ی بولی.[۱۵][۱۶]

در سال ۱۹۸۹، یان لی‌کان و همکاران الگوریتم استاندارد پس‌انتشار را برای یک شبکه‌ی عصبی عمیق با هدف تشخیص متن‌های دست‌نویس (به طور خاص با هدف بازشناسی کدهای پستی دست‌نویس روی نامه‌های پستی) به کار بست. درحالی که الگوریتم کار می‌کرد، عملیات یادگیری آن به سه روز زمان نیاز داشت. مدل مورد استفاده از یک لایه‌ی ورودی با ۲۵۶ واحد (پیکسل‌های یک تصویر مربعی ۱۶×۱۶)، یک لایه‌ی خروجی با ۱۰ واحد (که مشخص می‌کرد تصویر رقمی که به ورودی داده‌شده است، کدام یک از ارقام ۰ تا ۹ است) و سه لایه‌ی پنهان در میان این دو تشکیل شده بود. با ارزیابی مدل بر روی مجموعه‌داده‌ی تست، ۸/۱٪ رده‌بندی اشتباه و ۱۹/۴٪ بازپس‌زنی برای ۱٪ نرخ خطا در میان الگوهای تست باقی‌مانده به دست آمد که نشان می‌داد که این مدل نسبت به مدل‌های ارائه‌شده‌ی پیشین از دقت بالاتری برخوردار است و استفاده از الگوریتم پس‌انتشار، روشی مناسب در فرآیند تعلیم شبکه‌های عصبی عمیق است.[۱۷] لازم به ذکر است که خود الگوریتم پس‌انتشار، از پیش و از ۱۹۷۰ نیز به عنوان حالت معکوس مشتق خودکار وجود داشت.[۱۸][۱۹]

تا سال ۱۹۹۱، چنین سیستم‌هایی عموماً برای تشخیص ارقام دوبُعدی دست‌نویس ایزوله‌شده (به این معنا که ارقام به صورت تنها و بدون جزئیات و ویژگی‌های اضافه‌ی دیگری در پس‌زمینه - مثلاً متن و حروف اضافه - نوشته‌شده‌اند) به کار می‌رفتند؛ درحالی که بازشناسی اجسام سه‌بُعدی همچنان یک چالش بود. در سال ۱۹۹۲، پژوهشی از جان ونگ و همکاران با توضیح معایب و محدودیت‌های شبکه‌های عصبی سه‌لایه‌ای که برای این منظور به کار می‌رفتند، از مفهوم شبکه‌ی سلسله‌مراتبی (به انگلیسی: hierarchical network) استفاده کرده و مدلی موسوم به Cresceptron را ارائه دادند که قادر بود اجسام سه‌بعدی در محیط‌های شلوغ را نیز تشخیص دهد.[۲۰][۲۱][۲۲] مفهوم تجمیع حداکثری (به انگلیسی: max pooling) نیز نخستین‌بار در همین پژوهش پیاده‌سازی شد.[نیازمند منبع] از آن‌جایی که این مدل می‌توانست مستقیماً تصاویر طبیعی (سوژه‌های سه‌بعدی، با حضور عناصر دیگر در پس‌زمینه) را به عنوان ورودی دریافت کند، تبدیل به بنیانی برای یادگیری بصری همه‌منظوره شد.

در سال ۱۹۹۴، آندره د کاروالیو به همراه مایک فیرهورست و دیوید بیسیت، معماری‌ای مبتنی بر یک شبکه‌ی عصبی بولی چندلایه را ارائه داد که تحت عنوان شبکه‌ی عصبی بی‌وزن نیز شناخته می شد. این معماری از یک ماژول شبکه‌ی عصبی سه‌لایه‌ای خودسامان‌دهنده‌ی استخراج ویژگی (به انگلیسی: self-organising feature extraction یا SOFT) به همراه یک ماژول شبکه‌ی عصبی چندلایه‌ی رده‌بندی (به طور خاص یک شبکه با معماری GSN یا goal-seeking network) تشکیل شده بود که به صورت مستقل عملیات یادگیری را انجام می‌دادند. در ماژول استخراج ویژگی، تصویر ورودی به چند زیرمجموعه تقسیم شده و هر قسمت به یک بلاک از نورون‌ها (که دارای سلسله‌مراتب بوده و در چند لایه تقسیم شده‌بودند) داده می‌شد و هر بلاک به صورت موازی با دیگر بلاک‌ها و مستقل از آن‌ها آموزش می‌دید.[۲۳][۲۴]

در سال ۱۹۹۵، یوزف زِپ هُخ‌رایتر که پیش‌تر و در ۱۹۹۱ در پایان‌نامه‌ی خود - تحت عنوان: بررسی‌هایی در شبکه‌های عصبی پویا (به آلمانی: Untersuchungen zu dynamischen neuronalen Netzen) - به بررسی مسئله‌ی گرادیان کاهشی پرداخته بود[۲۵] (که خود پیش‌تر و در ۱۸۴۷مطرح شده[۲۶] و در ۱۹۴۴ نیز برای مسائل بهینه‌سازی غیرخطی مورد مطالعه قرار گرفته بود[۲۷]) به همراه یورگن اشمیدهوبر، معماری ال‌اس‌تی‌ام را ارائه داد[۲۸] و در مقاله‌ی دیگری در سال ۱۹۹۷، آن را بهبود بخشید[۲۹] که زمینه‌ی بزرگی را برای پیشرفت شبکه‌های عصبی بازگشتی فراهم ساخت[نیازمند منبع]. در همان سال ۱۹۹۵، برندن فرِی به همراه جفری هینتون و پیتر دایان نشان دادند که می‌توان با استفاده از الگوریتم بیدار-خواب، شبکه‌ای تشکیل‌شده از شش لایه‌ی کاملاً هم‌بند و با چندصد واحد پردازشی مخفی را آموزش داد.[۳۰]

علت محبوبیت یادگیری عمیقویرایش

تا قبل از پیدایش یادگیری عمیق، روش‌های یادگیری ماشین سنتی، بیش‌از حد به بازنمایی‌هایی (انتخاب ویژگی‌ها) که از داده‌ها بدست می‌آورند، وابسته بودند. این روش‌ها، نیاز به یک متخصص در دامنه موضوع داشت تا استخراج ویژگی‌ها را به‌صورت دستی انجام دهد. حال آن‌که، این استخراج ویژگی‌ها به صورت دستی فرآیندی چالش‌انگیز و زمان‌بر است. پیدایش یادگیری عمیق توانست به‌سرعت جایگزین این روش‌های سنتی شود. چرا که می‌توانست استخراج ویژگی‌ها را به‌صورت خودکار متناسب با هر مساله بدست آورد.[۳۱]

یادگیری عمیق هندسیویرایش

در حالی‌که مدل‌های یادگیری عمیق در دهه گذشته، در برخورد با ورودی‌هایی به شکل تصاویر، گفتار یا ویدیو که اساس ساختار آن‌ها اقلیدسی است، موفقیت‌آمیز عمل کرده‌، اخیرا، علاقه محققین در تلاش برای استفاده از یادگیری بر روی داده‌های غیر‌اقلیدسی افزایش یافته است. یادگیری عمیق هندسی، زمینه نوظهور تحقیقاتی است که سعی در تعمیم معماری یادگیری عمیق برای کار با داده‌های غیراقلیدسی دارد، تا این شکاف را پر کند.[۳۱]

شبکه عصبی گرافویرایش

شبکه‌های عصبی گراف، دسته‌ای از روش‌های یادگیری عمیق هستند که به‌طور خاص، برای استنباط بر داده‌های توصیف‌شده توسط گراف‌ها طراحی شده‌اند. ایجاد مدل‌هایی که مستقیما بروی گراف‌ها کار می‌کنند، مطلوب‌تر است. چراکه، می‌توانیم اطلاعات بیشتری در مورد ساختار و خصوصیات آن‌ها را بدست آوریم.

شبکه‌های عصبی گراف، به‌طور مستقیم برروی گراف‌ها اعمال می‌شوند و روشی آسان برای انجام وظایفی همانند، پیش‌بینی سطح گره، یال و گراف ارائه می‌کنند. تا پیش ‌از، توسعه شبکه‌های عصبی گراف، روش‌های یادگیری عمیق توانایی اعمال برروی یال‌ها در جهت استخراج دانش و پیش‌بینی را نداشتند. در عوض، تنها بر اساس ویژگی‌های گره عمل می‌کردند.[۳۱]

کاربردهاویرایش

بینایی رایانهویرایش

یکی از نخستین زمینه‌های بسیار موفق برای یادگیری عمیق که پتانسیل بالقوه‌ی این روش در حل مسائل را نشان داد، در حوزه‌ی بازشناسی تصویر رخ داد.

 
رهگیری خودکار حرکت وسایل نقلیه که از وظایف مهم یک خودروی خودران نیز محسوب می‌شود.

از سال ۲۰۱۰ و در پروژه‌ای موسوم به ایمیج‌نت مسابقه‌ای سالانه برگزار می‌شود که شرکت‌کنندگان با ارائه‌ی الگوریتم‌های کامپیوتری گوناگون، تلاش به بازشناسی تصاویر دیجیتالی در مقیاس کلان کرده و بر سر دست‌یابی به دقّت‌های بالاتر با یک‌دیگر رقابت می‌کنند. حال در سال ۲۰۱۲، یک شبکه‌ی عصبی هم‌گشتی به نام الکس‌نت در این رقابت به کار رفت و با کسب نتایجی بسیار چشم‌گیر، توجه‌های گسترده‌ای را به سوی روش یادگیری عمیق جلب کرد؛ به شکلی که به باور برخی، در این سال «انقلاب یادگیری عمیق» رخ داد. لازم به ذکر است که دقت الکس‌نت در تشخیص تصاویر پایگاه داده‌ی ایمیج‌نت از دقت انسان نیز فراتر بود (هرچند البته حتی پیش از ارائه‌ی الکس‌نت نیز الگوریتم‌های دیگری به عملکرد فراانسانی دست پیدا کرده بودند).[۳۲][۳۳]

امروزه نیز شبکه‌های عصبی در بینایی رایانه دارای نقشی کلیدی بوده و برای اهداف گوناگونی چون بازشناسی تصویر، تشخیص چهره، رهگیری اجسام، حذف نویز، رنگی‌کردن تصاویر سیاه و سفید، ترمیم تصاویر آسیب‌دیده، رده‌بندی تصاویر پزشکی و... به کار می‌رود.[۳۴]

بازشناسی خودکار گفتارویرایش

از دیگر زمینه‌های موفق برای یادگیری عمیق، تشخیص و بازشناسی خودکار گفتار در مقیاس گسترده است که معمولاً توسط مدل‌های مبتنی بر شبکه عصبی بازگشتی (به ویژه از نوع ال‌اس‌تی‌ام) و شبکه عصبی هم‌گشتی انجام می‌گیرد.[۳۵]

پردازش زبان‌های طبیعیویرایش

یادگیری عمیق اثر بزرگی در پیشرفت شاخه‌ی پردازش زبان‌های طبیعی ایجاد کرده و با ایجاد یک چهارچوب مدل‌سازی قدرتمند، به نتایج چشم‌گیری دست یافته است.[۳۶] به عنوان نمونه، مدل زبانی جی‌پی‌تی-۳ از اوپن ای‌آی با بهره‌گیری روش‌های یادگیری عمیق قادر به تولید متونی مشابه متون نوشته‌شده توسط انسان است.[۳۷]

تشخیص الکترومیوگرافیویرایش

سیگنال‌های الکترومیوگرافی می‌توانند به عنوان رابطی میان انسان و ماشین عمل کرده و با تحلیل آن‌ها از مقصود کاربر جهت کنترل تجهیزات گوناگون بهره برد. به عنوان نمونه، افراد دچار نقص عضو می‌توانند اعضایی مصنوعی را جایگزین عضو قطع‌شده‌ی خود کرده و آن‌ها را به شیوه‌ی مؤثری کنترل کنند. و یا با همین روش می‌توان اعضایی کمکی و تقویت‌کننده همچون اسکلت خارجی را کنترل کرد. برای تحلیل این سیگنال‌های خام و ارائه‌ی خروجی مناسب برای کنترل دستگاه، بهره‌گیری از روش یادگیری عمیق می‌تواند بسیار کاربردی باشد.[۳۸]

سامانه‌ی پیشنهادگرویرایش

سامانه‌های پیشنهادگر از یادگیری عمیق جهت استخراج ویژگی‌های معنادار برای یک مدل فاکتورهای پنهان به منظور پیشنهادهای محتوا-محور موسیقی و مجله بهره برده‌اند.[۳۹][۴۰] یادگیری عمیق چنددیدگاهی (به انگلیسی: multi-view deep learning) جهت یادگیری ترجیح‌های کاربر از چندین دامنه به کار می‌رود.[۴۱]

سرمایه‌گذاریویرایش

در طرح‌های سرمایه‌گذاری، از یادگیری عمیق برای افزایش میزان بازده استفاده می‌شود.[۴۲]

جستارهای وابستهویرایش

منابعویرایش

  1. Bengio, Y. (2009). Learning Deep Architectures for AI (PDF). Now Publishers. Archived from the original (PDF) on 21 March 2014. Retrieved 17 February 2013.
  2. Song, Hyun Ah, and Soo-Young Lee. "Hierarchical Representation Using NMF." Neural Information Processing. Springer Berlin Heidelberg, 2013.
  3. Olshausen, Bruno A. "Emergence of simple-cell receptive field properties by learning a sparse code for natural images." Nature 381.6583 (1996): 607-609.
  4. Ronan Collobert (May 6, 2011). "Deep Learning for Efficient Discriminative Parsing". videolectures.net. Ca. 7:45.
  5. Gomes, Lee (20 October 2014). "Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts". IEEE Spectrum.
  6. Deng, L.; Yu, D. (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039.
  7. DengLi; YuDong (2014-06-30). "Deep Learning". Foundations and Trends in Signal Processing. doi:10.1561/2000000039.
  8. Schulz, Hannes; Behnke, Sven (2012-11-01). "Deep Learning". KI - Künstliche Intelligenz. 26 (4): 357–363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987.
  9. «Paper by "Deep Learning Conspiracy" in Nature». people.idsia.ch. دریافت‌شده در ۲۰۲۰-۱۱-۰۴.
  10. Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques. American Elsevier Publishing Co. ISBN 978-0-444-00020-0.
  11. Ivakhnenko, A. G. (1971-10). "Polynomial Theory of Complex Systems". IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. ISSN 0018-9472. Check date values in: |date= (help)
  12. Fukushima, Kunihiko (1980-04). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics. 36 (4): 193–202. doi:10.1007/bf00344251. ISSN 0340-1200. Check date values in: |date= (help)
  13. Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. (PDF) University of California, Computer Science Department, Cognitive Systems Laboratory.
  14. Schmidhuber, Juergen (2015-11-28). "Deep Learning". Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832. ISSN 1941-6016.
  15. Aizenberg, Igor N.; Aizenberg, Naum N.; Vandewalle, Joos (2000). "Multi-Valued and Universal Binary Neurons". doi:10.1007/978-1-4757-3115-6.
  16. Gomez, Faustino J.; Schmidhuber, Jürgen (2005). "Co-evolving recurrent neurons learn deep memory POMDPs". Proceedings of the 2005 conference on Genetic and evolutionary computation - GECCO '05. New York, New York, USA: ACM Press. doi:10.1145/1068009.1068092. ISBN 1-59593-010-8.
  17. LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition" (PDF). Neural Computation. 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667.
  18. Linnainmaa, Seppo (1976-06). "Taylor expansion of the accumulated rounding error". BIT. 16 (2): 146–160. doi:10.1007/bf01931367. ISSN 0006-3835. Check date values in: |date= (help)
  19. Griewank, Andreas. "Who invented the reverse mode of differentiation." Documenta Mathematica, Extra Volume ISMP (2012): 389-400. (PDF) https://www.math.uni-bielefeld.de/documenta/vol-ismp/52_griewank-andreas-b.pdf
  20. J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992.
  21. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993.
  22. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.
  23. de Carvalho, A.; Fairhurst, M. C.; Bisset, D. L. (1994-08-01). "An integrated Boolean neural network for pattern classification". Pattern Recognition Letters. 15 (8): 807–813. doi:10.1016/0167-8655(94)90009-4. ISSN 0167-8655.
  24. de Carvalho, A.; Fairhurst, M.C.; Bisset, D.L. (1994). "A modular Boolean architecture for pattern recognition". Proceedings of 1994 IEEE International Conference on Neural Networks (ICNN'94). Orlando, FL, USA: IEEE. 7: 4349–4352. doi:10.1109/ICNN.1994.374967. ISBN 978-0-7803-1901-1.
  25. S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  26. Lemaréchal, C. (2012). "Cauchy and the Gradient Method" (PDF). Doc Math Extra: 251–254.
  27. Curry, Haskell B. (1944). "The method of steepest descent for non-linear minimization problems". Quarterly of Applied Mathematics. 2 (3): 258–261. doi:10.1090/qam/10667. ISSN 0033-569X.
  28. S. Hochreiter, J. Schmidhuber. Long Short-Term Memory. Technical Report FKI-207-95, Technische Universitat München, München, August 1995. URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=+10.1.1.51.3117.
  29. S. Hochreiter, J. Schmidhuber. (1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. URL http://www.bioinf.jku.at/publications/+older/2604.pdf.
  30. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (1995-05-26). "The wake-sleep algorithm for unsupervised neural networks". Science. 268 (5214): 1158–1161. Bibcode:1995Sci...268.1158H. doi:10.1126/science.7761831. PMID 7761831.
  31. ۳۱٫۰ ۳۱٫۱ ۳۱٫۲ میلاد وزان، یادگیری عمیق: اصول، مفاهیم و رویکردها، میعاد اندیشه، 1399.
  32. Alom, Md Zahangir; Taha, Tarek M.; Yakopcic, Christopher; Westberg, Stefan; Sidike, Paheding; Nasrin, Mst Shamima; Van Esesn, Brian C.; Awwal, Abdul A. S.; Asari, Vijayan K. (2018-09-12). "The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches". arXiv:1803.01164 [cs].
  33. «ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)». www.image-net.org. دریافت‌شده در ۲۰۲۰-۱۱-۰۳.
  34. Voulodimos, Athanasios; Doulamis, Nikolaos; Doulamis, Anastasios; Protopapadakis, Eftychios (2018-02-01). "Deep Learning for Computer Vision: A Brief Review". Computational Intelligence and Neuroscience. Retrieved 2020-11-03.
  35. Kim, John; Saurous, Rif A. (2018-09-02). "Emotion Recognition from Human Speech Using Temporal Information and Deep Learning". Interspeech 2018. ISCA: ISCA. doi:10.21437/interspeech.2018-1132.
  36. Deng, Li; Liu, Yang, eds. (2018). "Deep Learning in Natural Language Processing". doi:10.1007/978-981-10-5209-5.
  37. "OpenAI API". OpenAI. 2020-06-11. Retrieved 2020-11-03.
  38. Jafarzadeh, M.; Hussey, D. C.; Tadesse, Y. (2019-09). "Deep learning approach to control of prosthetic hands with electromyography signals". 2019 IEEE International Symposium on Measurement and Control in Robotics (ISMCR): A1–4–1-A1-4-11. doi:10.1109/ISMCR47492.2019.8955725. Check date values in: |date= (help)
  39. van den Oord, Aäron; Dieleman, Sander; Schrauwen, Benjamin (2013-03-14). "Learning a piecewise linear transform coding scheme for images". International Conference on Graphic and Image Processing (ICGIP 2012). SPIE. doi:10.1117/12.2011134.
  40. Feng, Xiaoyue; Zhang, Hao; Ren, Yijie; Shang, Penghui; Zhu, Yi; Liang, Yanchun; Guan, Renchu; Xu, Dong (2019). "The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study". Journal of Medical Internet Research. 21 (5): e12957. doi:10.2196/12957. PMC PMC6555124 Check |pmc= value (help). PMID 31127715.
  41. Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (2015). "A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems". Proceedings of the 24th International Conference on World Wide Web - WWW '15. New York, New York, USA: ACM Press. doi:10.1145/2736277.2741667. ISBN 978-1-4503-3469-3.
  42. «Improving Stock Return Forecasting by Deep Learning Algorithm» (PDF). Advances in mathematical finance & applications. ۴ (۳): ۱۳. ۳ فوریه ۲۰۱۹. doi:10.22034/amfa.2019.584494.1173. دریافت‌شده در ۳۰ مه ۲۰۱۹.

پیوند به بیرونویرایش