پس‌انتشار

روش یادگیری
(تغییرمسیر از بازگشت به عقب)

پس‌انتشار[۱] (انگلیسی: Backpropagation) یا انتشار معکوس، روشی در یادگیری عمیق برای آموزش شبکه‌های عصبی پیشخور است (روش‌های مشابهی برای آموزش سایر شبکه‌های عصبی مصنوعی به وجود آمده‌است). در این روش با استفاده از قاعده زنجیره‌ای، گرادیان تابع هزینه برای تک‌تک وزن‌ها محاسبه می‌شود. برای این کار برای محاسبه گرادیان هر لایه نسبت به تابع هزینه، از مشتق جزئی تابع هزینه نسبت به لایه بعدی استفاده می‌شود. در واقع از آخرین لایه (نزدیک‌ترین لایه به خروجی) محاسبه مشتق‌ها شروع می‌شود و تا ابتدای شبکه (نزدیک‌ترین لایه به ورودی‌ها) ادامه پیدا می‌کند.

روش معمول محاسبه گرادیان (محاسبه اثر هر وزن در خروجی هر نمونه) برای شبکه‌های عصبی پیشخور و به خصوص شبکه‌های عمیق بسیار زمان‌بر و در عمل غیرممکن است. با استفاده از روش پس‌انتشار و با کمک قاعده زنجیره‌ای و مشتق جزئی، در محاسبه گرادیان هر لایه از مشتقات لایه‌های جلوتر استفاده می‌شود و زمان اجرا تا حد زیادی کاهش پیدا می‌کند.[۲] استفاده از روش پس‌انتشار در کنار روش گرادیان کاهشی تصادفی، امکان اضافه کردن لایه‌های بیش‌تر به مدل به دلیل صرفه‌جویی زمانی به وجود می‌آید. این افزایش تعداد لایه‌ها از سوی دیگر باعث امکان یادگیری الگوهای پیچیده‌تر می‌شود.

ساختار ریاضی الگوریتم ویرایش

 
محاسبه گرادیان تابع هزینه برای سلول c

برای سلول عصبی   ورودیی که از سلول عصبی   به این سلول وارد می‌شود را با   نشان می‌دهیم. وزن این ورودی   است و مجموع ضرب ورودی‌ها با وزنهایشان را با   نمایش می‌دهیم، یعنی  . حال باید بر روی   یک تابع غیر خطی اعمال کنیم، این تابع را   می‌نامیم و خروجی آن را با   نمایش می‌دهیم به این معنی که  . به همین شکل خروجی‌هایی که از سلول عصبی   خارج شده و به سلول   وارد می‌شوند را با   نمایش می‌دهیم و وزن آن را با   . اگر تمام وزنهای این شبکه عصبی را در مجموعه‌ای به اسم   بگنجانیم، هدف در واقع یادگیری این وزنهاست.[۳] اگر ورودی ما   باشد و خروجی   و خروجی شبکه عصبی ما  ، هدف ما پیدا کردن   است به قسمی که برای همه داده‌ها   و   به هم خیلی نزدیک شوند. به عبارت دیگر هدف کوچک کردن یک تابع ضرر بر روی تمام داده هاست، اگر داده‌ها را با   و تابع ضرر را با   نشان دهیم هدف کمینه کردن تابع پایین بر حسب   است:[۴]

 

به عنوان مثال اگر مسئله رگرسیون است برای   می‌توانیم خطای مربعات را در نظر بگیریم و اگر مسئله دسته‌بندی است برای   می‌شود منفی لگاریتم بازنمایی را استفاده کرد.

برای به‌دست آوردن کمینه   می‌توان از روش گرادیان کاهشی استفاده کرد، به این معنی که گرادیان تابع را در حساب کرد و کمی در خلاف جهت آن حرکت کرد و این کار را آنقدر ادامه داد تا تابع ضرر خیلی کوچک شود. روش بازگشت به عقب در واقع روشی برای پیدا کردن گرادیان تابع است.

حال فرض کنیم می‌خواهیم گرادیان تابع   را نسبت به وزن   به‌دست بیاوریم. برای این کار نیاز به قاعده زنجیری در مشتق‌گیری داریم. قاعده زنجیری به این شکل کار می‌کند: اگر تابعی داشته باشیم به اسم   که وابسته به سه ورودی  ،   و   باشد و هرکدام از این سه ورودی به نوبه خود وابسته به   باشند، مشتق   به   به این شکل محاسبه می‌شود:

 

با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال می‌کنیم:

 

 

 

 

 

همان‌طور که در خط پیشین دیدیم برای به‌دست آوردن گرادیان نسبت به   به دو مقدار نیاز داریم ورودی به سلول عصبی   از سلول عصبی   که همان   است و راحت به‌دست می‌آید و   که از روش بازگشتی به‌دست می‌آید و بستگی به آن  ‌هایی لابه بعد دارد که سلول  به آن‌ها وصل است، به‌طور دقیقتر  .

روش بازگشتی برای به‌دست آوردن  ‌ها به این شکل کار می‌کند که ابتدا   را برای سلول‌های لایه خروجی حساب می‌کنیم، و بعد لایه‌ها را به نوبت پایین می‌روم و برای هر سلول   آن را با ترکیت  ‌های لایه‌های بالایی آن طبق فرمول حساب می‌کنیم. محاسبه کردن   برای لایه خروجی آسان است و مستقیماً با مشتق گرفتن از   به‌دست می‌آید.[۵]

شهود ویرایش

می‌دانیم هدف هر یادگیری با نظارت پیدا کردن تابعی است که از ورودی‌های مشاهده شده به خروجی‌های واقعی برسد. استفاده از ایده کاهش گرادیان در شبکه‌های عصبی منجر به تلاش برای پیدا کردن پارامترها در لایه‌های پنهان مدل به کمک پس‌انتشار می‌شود.

پیدا کردن مشتق وزن‌ها نسبت به تابع هزینه ویرایش

 
نمایشی از یک نورون در شبکه عصبی مصنوعی

به کمک قاعده زنجیره‌ای می‌توانیم مشتق تابع هزینه را نسبت به هر یک از وزن‌های شبکه عصبی ( ) به‌دست بیاوریم:

 

 

 

 

 

(معادله ۱)

حال سعی می‌کنیم آخرین کسر سمت راست را ساده کنیم (در   فقط همان ترکیب خطی خروجی نورون فعلی به   وابسته است) :

 

 

 

 

 

(معادله ۲)

می‌دانیم مشتق خروجی نورون   نسبت به ورودی‌های آن همان مشتق جزئی نسبت به تابع فعال‌سازی است. در واقع دلیل اصلی این‌که تابع فعال‌سازی باید مشتق‌پذیر باشد، محاسبه همین مشتق است:

 

 

 

 

 

(معادله ۳)

برای مثال در حالتی که تابع فعال سازی، تابع لجستیک باشد:

 

حال طبق معادله ۱ یکی یکی بخش‌های مختلف را محاسبه می‌کنیم. کسر اول (مانند آنچه در زیر آمده‌است) با مشخص بودن خروجی و تابع هزینه به راحتی قابل محاسبه است.

 

 

 

 

 

(معادله ۴)

برای مثال اگر تابع هزینه همان مربعات خطاها باشد،

 

با فرض اینکه   تابعی از همه نورون‌هایی است که از نورون   ام به آن‌ها یال دارد ( ):

 

حال با گرفتن مشتق نسبت به   فرم بازگشتی زیر به‌دست می‌آید که همان شکل کلی پس‌انتشار است.

 

 

 

 

 

(معادله ۵)

با استفاده از معادله ۱ تا ۵ و حذف بخش‌های مشترک، می‌توانیم مشتق   را نسبت به وزن دلخواه   محاسبه کنیم.

 
 

که در آن تابع دلتا به صورت زیر است:

 

برای مثال اگر   تابع لجستیک باشد:

  در نهایت فرم تغییرات وزن به صورت زیر است:

 

جستارهای وابسته ویرایش

منابع ویرایش

  1. مقایسه دو الگوریتم پس انتشار خطا و ژنتیک در یادگیری شبکه عصبی برای پیش‌بینی سری زمانی آشوبگونه. زهرا عربسرخی، محمدرضا اصغری اسکویی
  2. «Build with AI | DeepAI». DeepAI. بایگانی‌شده از اصلی در ۱۷ اکتبر ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۰-۲۴.
  3. A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 23 October 2018. {{cite journal}}: Cite journal requires |journal= (help)
  4. A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 23 October 2018. {{cite journal}}: Cite journal requires |journal= (help)
  5. Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.