پیش‌نویس:بازی تصادفی

در نظریه بازی ها ، بازی تصادفی ، که توسط لوید شپلی در اوایل دهه 1950 معرفی شد، [۱] یک بازی تکراری با انتقال های احتمالی است که توسط یک یا چند بازیکن انجام می شود. بازی به صورت مراحل متوالی انجام می شود. در ابتدای هر مرحله بازی در حالت خاصی قرار دارد . بازیکنان عملی را انتخاب میکنند و هر بازیکن پاداشی دریافت میکند که بستگی به وضعیت فعلی و عمل انتخاب شده دارد. سپس بازی به حالت تصادفی جدیدی منتقل می شود که توزیع آن به حالت قبلی و عمل انتخاب شده توسط بازیکنان بستگی دارد. این رویه در حالت جدید تکرار می شود و بازی برای تعداد محدود یا نامحدود از مراحل ادامه می یابد. مجموع پاداش یا نتیجه نهایی یک بازیکن اغلب به عنوان مجموع تخفیف مرحله پاداش یا حد پایین تر از میانگین پاداشهای مرحله در نظر گرفته می شود.

بازی‌های تصادفی فرآیندهای تصمیم مارکوف را به تصمیم‌گیرندگان چندگانه و همچنین بازی‌های استراتژیک را به موقعیت‌های پویا تعمیم می‌دهند که در آن محیط در پاسخ به انتخاب‌های بازیکنان تغییر می‌کند. [۲]

بازی های دو نفره ویرایش

بازی های تصادفی دو نفره بر روی گراف های جهت دار به طور گسترده برای مدل سازی و تجزیه و تحلیل سیستم های گسسته ای که در یک محیط ناشناخته (متخاصم) کار می کنند استفاده می شود. پیکربندی‌های یک سیستم و محیط آن به صورت رئوس نشان داده می‌شوند و انتقال‌ها با توجه به عمل سیستم، یا محیط آن مطابقت دارند. سپس یک اجرا از سیستم با یک مسیر بی نهایت در گراف مطابقت دارد. بنابراین، یک سیستم و محیط آن را می توان به عنوان دو بازیکن با اهداف متضاد در نظر گرفت، جایی که هدف یک بازیکن (سیستم) به حداکثر رساندن احتمال اجرای "خوب" است، در حالی که بازیکن دیگر (محیط) مخالف آن را هدف قرار می دهد.

در بسیاری از موارد، مقدار متعادلی از این احتمال وجود دارد، اما استراتژی‌های بهینه برای هر دو بازیکن ممکن است وجود نداشته باشد.

ما مفاهیم اولیه و سوالات الگوریتمی مورد مطالعه در این زمینه را معرفی کردیم و برخی از مسائل دیرینه در این زمینه را ذکر می کنیم. سپس، نتایج منتخب اخیر را ذکر می کنیم.

تئوری ویرایش

اجزای یک بازی تصادفی عبارتند از: مجموعه محدودی از بازیکنان   ; یک فضای حالت   (یا یک مجموعه محدود یا یک فضای قابل اندازه گیری   برای هر بازیکن   ، یک مجموعه عمل   (یا یک مجموعه محدود یا یک فضای قابل اندازه گیری   ) یک احتمال انتقال   از   ، جایی که   نشانه اکشن یا عمل به   است، ، جایی که   احتمال اینکه حالت بعدی در A   باشد با توجه به وضعیت فعلی   و عمل فعلی   است; و یک تابع پرداخت   از   به   ، جایی که   -مین مختصات   ،   ، پاداش بازیکن   است به عنوان تابعی از حالت   و اکشن یا عمل   .

بازی در برخی از حالت های اولیه   شروع می شود . در مرحله   ، بازیکنان ابتدا      را مشاهده می کنند ، سپس به طور همزمان     را انتخاب میکند، سپس عمل را مشاهده   میکند، و سپس به طور طبیعی   را با توجه به احتمال   انتخاب می کند . نمایشی از بازی تصادفی،   ، که دنباله ای از پاداش   ،را تعریف می کند جایی که   .

بازی با تخفیف   با فاکتور تخفیف  

(   ) بازی است که در آن پاداش به بازیکن   ،   است . بازی   مرحله ای بازی است که در آن پاداش بازیکن   ،  است .

ارزش   ، به ترتیب   ، یک بازی تصادفی دو نفره با جمع صفر   ، به ترتیب   ، با حالت ها و اکشن های بسیار زیادی وجود دارد و ترومن بیولی و الون کولبرگ (1976) ثابت کردند که   به حدی همگرا می شود   تا بی نهایت می رود و آن   به همان حد همگرا می شود از   تا   .

بازی "بدون تخفیف".   بازی است که در آن پاداش به بازیکن  ، "حد" میانگین های پاداش های حالات است. برخی از اقدامات احتیاطی در تعریف ارزش یک مجموع صفر دو نفره    مورد نیاز است و در تعریف پاداش های های تعادلی حاصل جمع غیر صفر   . مقدار یکنواخت   یک بازی تصادفی دو نفره با جمع صفر   وجود دارد اگر برای هر   یک عدد صحیح مثبت  وجود دارد و یک جفت استراتژی   از بازیکن 1 و   از بازیکن 2 به طوری که برای هر   و   و هر   امید از   با توجه به احتمال در نمایشنامه تعریف شده توسط   و   حداقل است   ، و انتظار از   با توجه به احتمال در بازی تعریف شده توسط   و   حداکثر   است . ژان فرانسوا مرتنز و آبراهام نیمن (1981) ثابت کردند که هر بازی تصادفی دو نفره با مجموع صفر با تعداد محدودی از حالت ها و عمل ها دارای ارزش یکنواخت است. [۳]

اگر تعداد بازیکنان محدودی وجود داشته باشد و مجموعه‌های اکشن و مجموعه حالت‌ها محدود باشند، یک بازی تصادفی با تعداد مراحل محدود همیشه دارای تعادل نش است . همین امر در مورد بازی با مراحل بی‌نهایت صدق می‌کند، اگر مجموع بازده مبلغ تخفیف شده باشد.

بازی تصادفی با جمع غیر صفر   پاداش تعادلی یکنواخت  دارد اگر برای هر   یک عدد صحیح مثبت  Nوجود داشته باشد،و یک استراتژی   به طوری که برای هر انحراف یک طرفه توسط یک بازیکن   به عنوان مثال، یک استراتژی   با   برای همه   ، و هر   امید از   با توجه به احتمال در بازی تعریف شده توسط   حداقل     است ، و امید از   با توجه به احتمال در بازی تعریف شده توسط   حداکثر   است . Nicolas Vieille نشان داده است که تمام بازی‌های تصادفی دو نفره با فضاهای حالت محدود و عمل دارای یک بازده تعادلی یکنواخت هستند.

بازی تصادفی با جمع غیر صفر   دارای بازده تعادلی محدود کننده  است اگر برای هر   یک استراتژی  وجود داشته باشد به طوری که برای هر انحراف یک طرفه توسط یک بازیکن   ، امید حد پایین تر از میانگین حالت های پاداش با توجه به احتمال بازی های تعریف شده توسط   حداقل    است ، و امید حد بالاتر از میانگین حالت های پاداش با توجه به احتمال بازی های تعریف شده توسط   حداکثر   است . Jean-François Mertens وAbraham Neyman (1981) ثابت کردند که هر بازی تصادفی دو نفره با مجموع صفر با حالت ها و اکشن های محدود دارای مقدار میانگین محدود کننده است، [۳] و نیکلاس ویله نشان داده است که همه بازی های تصادفی دو نفره با فضاهای حالت محدود و عمل دارای پاداش تعادلی محدودکننده هستند. به طور خاص، این نتایج حاکی از آن است که این بازی ها دارای یک ارزش و یک بازده تعادل تقریبی هستند که به آن بازده تعادل حد فاصل (به ترتیب، میانگین لنگر) نامیده می شود، زمانی که بازده کل حد پایین تر (یا حد برتر) از حد میانگین بازده حالات باشد.

این که آیا هر بازی تصادفی با تعداد محدودی از بازیکنان، حالت‌ها و عمل ها، یک بازده تعادلی یکنواخت دارد، یا یک بازده تعادلی با میانگین محدود، یا حتی یک بازده تعادلی متوسط نهایی، یک سوال باز چالش برانگیز است.

تعادل کامل مارکوف ، اصلاح مفهوم زیر بازی کامل تعادل نش به بازی های تصادفی است.

بازی های تصادفی با بازی های بیزی ترکیب شده اند تا عدم اطمینان در مورد استراتژی های بازیکن را مدل سازی کنند. [۴] نتیجه مدل "بازی بیزی تصادفی" از طریق یک ترکیب بازگشتی از معادله تعادل بیزی نش و معادله بهینگی بلمن حل می شود .

برنامه های کاربردی ویرایش

بازی های تصادفی در اقتصاد ، زیست شناسی تکاملی و شبکه های کامپیوتری کاربرد دارند. [۵] [۶] آنها تعمیم بازی های تکراری هستند که با حالت خاصی مطابقت دارند که در آن فقط یک حالت وجود دارد.

همچنین ببینید ویرایش

منابع ویرایش

 

  1. Shapley, L. S. (1953). "Stochastic games". PNAS. 39 (10): 1095–1100. Bibcode:1953PNAS...39.1095S. doi:10.1073/pnas.39.10.1095. PMC 1063912. PMID 16589380.
  2. Solan, Eilon; Vieille, Nicolas (2015). "Stochastic Games". PNAS. 112 (45): 13743–13746. doi:10.1073/pnas.1513508112. PMC 4653174. PMID 26556883.
  3. ۳٫۰ ۳٫۱ Mertens, J. F.; Neyman, A. (1981). "Stochastic Games". International Journal of Game Theory. 10 (2): 53–66. doi:10.1007/BF01769259.
  4. Albrecht, Stefano; Crandall, Jacob; Ramamoorthy, Subramanian (2016). "Belief and Truth in Hypothesised Behaviours". Artificial Intelligence. 235: 63–94. arXiv:1507.07688. doi:10.1016/j.artint.2016.02.004.
  5. Constrained Stochastic Games in Wireless Networks by E.Altman, K.Avratchenkov, N.Bonneau, M.Debbah, R.El-Azouzi, D.S.Menasche
  6. Djehiche, Boualem; Tcheukam, Alain; Tembine, Hamidou (2017-09-27). "Mean-Field-Type Games in Engineering". AIMS Electronics and Electrical Engineering (به انگلیسی). 1: 18–73. arXiv:1605.03281. doi:10.3934/ElectrEng.2017.1.18.

خواندن بیشتر ویرایش

لینک های خارجی ویرایش