پیش‌نویس:الکس نت

"این مقاله در حال ترجمه از ویکی انگلیسی است. لطفا حذف نشود."

AlexNet نام یک معماری شبکه عصبی کانولوشن (CNN) است که توسط Alex Krizhevsky با همکاری Ilya Sutskever و Geoffrey Hinton طراحی شد. جفری هینتون مشاور دکترای الکس کریژفسکی در دانشگاه تورنت بوده است. [۱]

AlexNet در چالش تشخیص تصویری در مقیاس بزرگ ImageNet در 30 سپتامبر 2012 رقابت کرد [۲] این شبکه به خطای 15.3 درصدی در top-5 error دست یافت که بیش از 10.8 درصد کمتر از رتبه دوم بود. top-5 error نشان دهنده درصد تعداد دفعاتی است که گروه یا دسته صحیح عکس حتی در بین ۵ پیشبینی برتر مدل مدل وجود ندارد. نتیجه اولیه مقاله اصلی این بود که عمق مدل برای عملکرد بالای آن ضروری بود، که از نظر محاسباتی گران بود، اما به دلیل استفاده از واحدهای پردازش گرافیکی (GPU) در طول آموزش، امکان پذیر شد.

پیشینه تاریخی

ویرایش

AlexNet اولین شبکه عصبی کانولوشنی پیاده‌سازی شده سریع با GPU نبود که در مسابقه تشخیص تصویر برنده شد. CNN در GPU توسط K. Chellapilla و همکاران (نوشته شده در ۲۰۰۶) ۴ برابر سریعتر از یک پیاده سازی معادل روی CPU بود. [۳] یک CNN عمیق از Dan Cireșan و همکاران. (2011) در IDSIA در حال حاضر ۶۰ برابر سریعتر بود [۴] و در آگوست ۲۰۱۱ از پیشینیان عملکرد بهتری داشت [۵] بین ۱۵ می ۲۰۱۱ و ۱۰ سپتامبر ۲۰۱۲، CNN آنها در حدودا چهار مسابقه تصویر برنده شد. [۶] آنها همچنین به طور قابل توجهی بهترین عملکرد در ادبیات را برای پایگاه داده های تصویری متعدد بهبود دادند. [۷]

با توجه به مقاله AlexNet، شبکه قبلی Cireșan تا حدودی مشابه AlexNet است. در اصل هر دو با CUDA نوشته شده بودند تا با پشتیبانی از GPU اجرا شوند. در واقع، هر دو در واقع انواعی از طرح‌های CNN هستند که توسط Yann LeCun و همکاران در سال ۱۹۸۹ معرفی شده‌اند [۸] [۹] که الگوریتم انتشار به سمت عقب را به گونه‌ای از معماری اصلی CNN معرفی شده توسط کونیهیکو فوکوشیما به نام " نئوگنیترون " اعمال کرد. [۱۰] [۱۱] معماری بعدها با روش J. Weng به نام max-pooling اصلاح شد. [۱۲] [۱۳] مکس پولینگ یک تکنیک در CNN می‌باشد که وظیفه downsampling را دارد. به کاهش ابعاد داده (مثلا عکس) با خلاصه کردن اطلاعات موجود در آن downsampling گفته می‌شود.

طراحی شبکه

ویرایش

الکس نت شامل هشت لایه است: پنج لایه اول لایه های کانولوشن هستند، بعد برخی از لایه‌های آنها max-pooling می‌آید و سه لایه آخر لایه های fully connected (کاملاً متصل) هستند. شبکه، به جز آخرین لایه، به دو نسخه تقسیم می شود که هر کدام روی یک GPU اجرا می شوند.

شبکه‌های کاملاً متصل شبکه‌های هستند که در آنها تمامی نورون‌های موجود در یک لایه به تمامی نورون‌های موجود در لایه بعد خود متصل است و به این گونه وظیفه تعیین دسته را در شبکه CNN به عهده خواهند داشت.

کل ساختار را می توان به صورت زیر نوشت:

 
  • CNN = لایه کانولوشنی (با تابع فعال سازی ReLU)
  • RN = نرمال سازی پاسخ محلی
  • MP = مکس پولینگ
  • FC = لایه کاملا متصل (با تابع فعال سازی ReLU)
  • خطی = لایه کاملا متصل (بدون تابع فعال سازی)
  • DO = بیرون ریختن برخی از نرون ها

این ساختار از تابع فعال‌سازی غیراشباع ReLU استفاده کرد که عملکرد تمرینی بهتری را نسبت به توابع فعال سازی tanh و sigmoid نشان داد.

بی شک AlexNet یکی از تأثیرگذارترین مقالات منتشر شده در زمینه بینایی کامپیوتر است، که باعث شد مقالات متعددی با استفاده از CNN و با به کارگیری GPU برای تسریع یادگیری عمیق منتشر شوند. [۱۴]

بینایی کامپیوتر هوشی مصنوعی است که رایانه‌ها را قادر می‌سازد تا دنیای بصری را از طریق تجزیه و تحلیل تصویر و ویدیو «دیدن» و درک کنند.

طبق گفته سایت Google Scholar تا اوایل سال 2023، مقاله AlexNet بیش از 120000 بار مورد استناد قرار گرفته است. [۱۵]

منابع

ویرایش
  1. Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz.
  2. "ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)". image-net.org.
  3. Kumar Chellapilla; Sidd Puri; Patrice Simard (2006). "High Performance Convolutional Neural Networks for Document Processing". In Lorette, Guy (ed.). Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft.
  4. Cireșan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2: 1237–1242. Retrieved 17 November 2013.
  5. "IJCNN 2011 Competition result table". OFFICIAL IJCNN2011 COMPETITION (به انگلیسی). 2010. Retrieved 2019-01-14.
  6. Schmidhuber, Jürgen (17 March 2017). "History of computer vision contests won by deep CNNs on GPU" (به انگلیسی). Retrieved 14 January 2019.
  7. Cireșan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE). pp. 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. S2CID 2161592.
  8. LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition" (PDF). Neural Computation. MIT Press - Journals. 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667. OCLC 364746139.
  9. LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. Retrieved October 7, 2016.
  10. Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.
  11. Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. Retrieved 16 November 2013.
  12. Weng, J; Ahuja, N; Huang, TS (1993). "Learning recognition and segmentation of 3-D objects from 2-D images". Proc. 4th International Conf. Computer Vision: 121–128.
  13. Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513.
  14. Deshpande, Adit. "The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)". adeshpande3.github.io. Retrieved 2018-12-04.
  15. AlexNet paper on Google Scholar