آتاماتای یادگیر

آتاماتای یادگیر (به انگلیسی: Learning automaton) فرایند یادگیری موجودات زنده یکی از موضوعات تحقیقاتی جدید به‌شمار می‌آید. این تحقیقات به دو دسته کلی تقسیم می‌شوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن می‌پردازند و دسته دوم بدنبال ارائه یک متدولوژی برای قرار دادن این اصول در یک ماشین می‌باشند. یادگیری به صورت تغییرات ایجادشده در کارایی یک سیستم بر اساس تجربه‌های گذشته تعریف می‌شود. یک ویژگی مهم سیستم‌های یادگیر، توانایی بهبود کارایی خود با گذشت زمان است. به بیان ریاضی می‌توان اینطور عنوان کرد که هدف یک سیستم یادگیر، بهینه‌سازی وظیفه‌ای است که کاملاً شناخته شده نیست؛ بنابراین یک رویکرد به این مسئله، کاهش اهداف سیستم یادگیر به یک مسئله بهینه‌سازی است که بر روی مجموعه‌ای از پارامترها تعریف می‌شود و هدف آن پیدا کردن مجموعه پارامترهای بهینه می‌باشد.

در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مسئله (که یادگیری با نظارت به آن‌ها نیاز دارد) در دست نیست. به همین علت استفاده از یک روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفته‌است. یادگیری تقویتی نه زیرمجموعه شبکه‌های عصبی است و نه انتخابی به جای آن‌ها محسوب می‌شود. بلکه رویکردی متعامد برای حل مسائل متفاوت و مشکلتر به‌شمار می‌رود. یادگیری تقویتی، از ترکیب برنامه‌نویسی پویا و یادگیری نظارتی برای دستیابی به یک سیستم قدرتمند یادگیری ماشین استفاده می‌کند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص می‌شود تا به آن دست یابد. آنگاه عامل مذکور یادمی‌گیرد که چگونه با آزمایش‌های صحیح و خطا با محیط خود، به هدف تعیین شده برسد.[۱]

در یادگیری تقویتی یک عامل یادگیرنده در طی یادگیری با فعل و انفعالات مکرر با محیط، به یک سیاست کنترل بهینه می‌رسد. کارایی این فعل و انفعالات با محیط به وسیلهٔ بیشینه (کمینه) بودن پاداش (جریمه) عددی که از محیط گرفته می‌شود، ارزیابی می‌گردد. علاوه بر این روش‌های یادگیری تقویتی، اولاً استفاده از یادگیری به روشی ساده، سیستماتیک و واقعی برای رسیدن به یک جواب تقریباً بهینه را بیان می‌کنند (پیدا کردن این جواب بهینه با استفاده از روش‌های سنتی بسیار مشکل است). ثانیاً، دانشی که در طی فرایند یادگیری بدست می‌آید، در یک مکانیزم نمایش دانش مانند شبکه عصبی یا جدول مراجعه ذخیره می‌شود که از طریق آن می‌توان با محاسبات اندک و با کارایی بالایی عمل تخصیص کانال را انجام داد. ثالثاً، از آنجایی که این روش یادگیری در محیطی بلادرنگ در حال انجام است، می‌توان آن را هم‌زمان با فعالیت محیط (مانند شبکه سلولی) انجام داد؛ که در این حالت با تمام رخدادهای پیش‌بینی نشده به صورت یک تجربه جدید برخورد می‌شود که می‌توان از آن‌ها برای بهبود کیفیت یادگیری استفاده کرد.[۲]

مزیت اصلی یادگیری تقویتی نسبت به سایر روش‌های یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی).[۳] یکی از روش‌های یادگیری تقویتی، اتوماتای یادگیر تصادفی است. اتوماتای تصادفی بدون هیچگونه اطلاعاتی دربارهٔ عمل بهینه (یعنی با در نظر گرفتن احتمال یکسان برای تمامی‌عملهای خود در آغاز کار) سعی در یافتن پاسخ مسئله دارد. یک عمل اتوماتا به صورت تصادفی انتخاب شده و در محیط اِعمال می‌گردد. سپس پاسخ محیط دریافت شده و احتمال عملها بر طبق الگوریتم یادگیری بِروز می‌شوند و روال فوق تکرار می‌گردد. اتوماتای تصادفی که به صورت فوق در جهت افزایش کارایی خود عمل کند، یک اتوماتای یادگیر تصادفی گفته می‌شود.

یک اتوماتای یادگیر را می‌توان به صورت یک شئ مجرد که دارای تعداد متناهی عمل است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک عمل از مجموعه عملهای خود و اِعمال آن بر محیط، عمل می‌کند. عمل مذکور توسط یک محیط تصادفی ارزیابی می‌شود و اتوماتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده می‌کند. در طی این فرایند اتوماتا یادمی‌گیرد که عمل بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به عمل انتخابی اتوماتا که در جهت انتخاب عمل بعدی اتوماتا استفاده می‌شود، توسط الگوریتم یادگیری اتوماتا مشخص می‌گردد.

جستارهای وابسته ویرایش

منابع ویرایش

  1. Mance, E. , and Stephanie, S. , H. , "Reinforcement learning: A tutorial," Wright Laboratory, 1996.
  2. Sutton, R. S. , and Barto, A.G. ; "Reinforcement learning: Introduction"; MIT Press, 1998
  3. Narendra K. S. , Thathachar M. A. L. ; "Learning automata: An introduction"; Prentice Hall, 1989