آتاماتای یادگیر: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
Shriazeditor (بحث | مشارکتها) |
|||
خط ۱:
{{ویکیسازی|تاریخ=اکتبر ۲۰۱۳}}
فرایند یادگیری موجودات زنده یکی از موضوعات تحقیقاتی جدید بشمار میآید. این تحقیقات به دو دسته کلی تقسیم میشوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن میپردازند و دسته دوم بدنبال ارائه یک متدولوژی برای قرار دادن این اصول در یک ماشین میباشند. یادگیری بصورت تغییرات ایجادشده در کارایی یک سیستم بر اساس تجربههای گذشته تعریف
در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مسئله (که یادگیری با نظارت به آنها نیاز دارد) در دست نیست. بهمین علت استفاده از یک روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفته است. یادگیری تقویتی نه زیرمجموعه شبکههای عصبی است و نه انتخابی بجای آنها محسوب میشود. بلکه رویکردی متعامد برای حل مسائل متفاوت و مشکلتر بشمار میرود. یادگیری تقویتی، از ترکیب برنامهنویسی پویا و یادگیری نظارتی برای دستیابی به یک سیستم قدرتمند یادگیری ماشین استفاده میکند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص میشود تا به آن دست یابد. آنگاه عامل مذکور
در یادگیری تقویتی یک عامل یادگیرنده در طی یادگیری با فعل و انفعالات مکرر با محیط، به یک سیاست کنترل بهینه میرسد. کارایی این فعل و انفعالات با محیط بوسیله بیشینه (کمینه) بودن پاداش (جریمه) عددی که از محیط گرفته میشود، ارزیابی میگردد. علاوه بر این روشهای یادگیری تقویتی، اولاً استفاده از یادگیری به روشی ساده، سیستماتیک و واقعی برای رسیدن به یک جواب تقریباً بهینه را بیان میکنند (پیدا کردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشکل است). ثانیاً، دانشی که در طی فرایند یادگیری بدست میآید، در یک مکانیزم نمایش دانش مانند شبکه عصبی یا جدول مراجعه ذخیره میشود که از طریق آن میتوان با محاسبات اندک و با کارایی بالایی عمل تخصیص کانال را انجام داد. ثالثاً، از آنجایی که این روش یادگیری در محیطی بلادرنگ در حال انجام است، میتوان آنرا همزمان با فعالیت محیط (مانند شبکه سلولی) انجام
مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی).<ref>
یک اتوماتای یادگیر را میتوان بصورت یک شئ مجرد که دارای تعداد متناهی عمل است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک عمل از مجموعه عملهای خود و اِعمال آن بر محیط، عمل میکند. عمل مذکور توسط یک محیط تصادفی ارزیابی میشود و اتوماتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده میکند. در طی این فرایند اتوماتا
== منابع ==
|