بهترین پاسخ
در نظریه بازیها، بهترین پاسخ، استراتژی خالص یا مختلط است که منتج به بیشترین سود برای بازیکن، با ثابت در نظر گرفتن استراتژی سایر بازیکنان، شود. در یک بازی دو نفره، اگر و استراتژیهای بازیکنان اول و دوم باشند، در این صورت بهترین پاسخ به است اگر و تنها اگر برای هر استراتژی از استراتژیهای بازیکن نفر اول که داشته باشیم که در آن تابع تابع سود بازیکن اول است.[۱]
مفهوم بهترین پاسخ، در تعریف مفهوم تعادل نش نقش اساسی دارد. در حقیقت در یک بازی، یک استراتژی پروفایل، تعادل نش است اگر هر کدام از بازیکنان بهترین پاسخ (یا یکی از بهترین پاسخها) را نسبت به استراتژی دیگران بازی کنند.[۲]
تابع بهترین پاسخ
ویرایشاز تابع بهترین پاسخ، که به عنوان تابع واکنش نیز شناخته میشود، در اثبات وجود تعادل نش استفاده میشود.[۲]
تابع بهترین پاسخ، یک تابع با برد استراتژیهای بازیکن نیست، چون در یک تابع، به ازای هر آرگومان ورودی، یک خروجی یکتا تعیین میشود. در صورتی که ممکن است در بسیاری از نقاط تابع بهترین پاسخ، بیش از یک خروجی وجود داشته باشد. در حقیقت، تابع بهترین پاسخ، تابعی از استراتژی پروفایلهای سایر بازیکنان به مجموعه استراتژیهای بازیکن است. در صورتی که استراتژی سایر بازیکنان را بنامیم، نشانگر بهترین پاسخ بازیکن -ام به است.
برای نمایش تابع بهترین پاسخ، برای تمامی بازیهای بهنجار ، میتوان از یک خط در یک مربع واحد استفاده کرد. تصاویر ۱ تا ۳، تابع بهترین پاسخ را در بازی شکار گوزن نشان میدهند. خطوط نقطهچین در تصویر ۱، نشانگر بهینهترین احتمال برای بازی گوزن توسط بازیکن است، به عنوان تابعی از احتمال بازی گوزن توسط بازیکن . این خطوط در تصویر ۲، نشانگر بهینهترین احتمال برای بازی گوزن توسط بازیکن است که به عنوان تابعی از احتمال بازی گوزن توسط بازیکن ترسیم شدهاست. در تصویر ۳، هر دو این خطوط در یک نمودار رسم شدهاند و نقاط برخورد این خطوط، نقاطی است که در آن، هر دو بازیکن بهترین پاسخ را نسبت به استراتژی بازیکن مقابل بازی میکنند و در نتیجه، تعادلهای نش این بازی هستند.
استراتژیهای غالب و مغلوب
ویرایشبازیها با استراتژی غالب
ویرایشاگر در یک بازی، بازیکنی استراتژی غالب اکید داشته باشد، این استراتژی در مقابل همه استراتژی پروفایلهای سایر بازیکنان بهترین پاسخ است. برای مثال، در بازی معمای زندانی، هر دو بازیکن استراتژی غالب اکید دارند، پس بهترین پاسخ هر بازیکن مستقل از بازی بازیکن دیگر، استراتژی غالب است. این گزاره همچنین در مورد استراتژی غالب (نه غالب اکید) نیز صحیح است.[۳]
بازیها با استراتژی مغلوب
ویرایشاگر در یک بازی، بازیکنی استراتژی مغلوب اکید داشته باشد، میتوان ثابت کرد این استراتژی مغلوب اکید، هیچ هنگام بهترین پاسخ نخواهد بود. این گزاره، در مورد استراتژی مغلوب صحیح نیست.[۳] بازی دو نفره زیر را در نظر بگیرید (بازی ۱). در این بازی استراتژی برای نفر اول استراتژی مغلوب است. در حالی که بهترین پاسخ برای استراتژی (که توسط نفر دوم بازی شود) است.
B | A | |
---|---|---|
۱٬۱ | ۱٬۱ | A |
۱٬۱ | ۱٬۱ | B |
رابطه بین ساپورت یک استراتژی غالب و بهترین پاسخ
ویرایشاگر در یک بازی، بهترین پاسخ مختلط به استراتژی پروفایل سایر بازیکنان باشد، در این صورت هر استراتژی در ساپورت نیز بهترین پاسخ به آن استراتژی پروفایل سایر بازیکنان است.
پویایی بهترین پاسخ
ویرایشدر نظریهی بازیهای تکاملی، پویایی بهترین پاسخ، مجموعهای از قوانین بروزرسانی استراتژیها را نمایش میدهد که استراتژی بازیکنان در دور بعدی را با توجه به تابع بهترین پاسخ آنها در مقابل زیر مجموعهای از کل جمعیت مشخص میکند.
نکته مهم است که بازیکنان در دور بعد بازی، استراتژیای را انتخاب میکنند که سود آنها را در همان دور بعد بیشینه کند و اهمیتی به آیندهٔ بازی در دوردست و تأثیر استراتژی انتخابی در آینده نمیدهند. در اینجا تعریف بازی پتانسیل لازم است. یک بازی را بازی پتانسیلی مینامیم اگر انگیزهٔ همهٔ بازیکنان از عوض کردن استراتژی خود را بتوان به شکل یک تابع کلی به نام تابع پتانسیل نمایش داد. در نظریهٔ بازیهای پتانسیلی، پویایی بهترین پاسخ به روشی برای یافتن تعادل نش با محاسبهٔ بهترین پاسخ برای هر بازیکن برمی گردد.
قضیه: در هر بازی پتانسیلی محدود، پویایی بهترین پاسخ به تعادل نش همگرا خواهد شد.
مدل تعدیل شده
ویرایشبرخی مدلها از بهترین پاسخ تعدیل شده به جای بهترین پاسخ استفاده میکنند که این توابع همانند توابع بهترین پاسخ معمولی کار میکنند با این تفاوت که بازیکنان در آن از یک استراتژی خالص به استراتژی خالص دیگر پرش نمیکنند. در توابع بهترین پاسخ استاندارد، حتی اگر یک استراتژی به مقدار ناچیزی سود بیشتری از استراتژی دوم داشته باشد استراتژی اول با احتمال یک انتخاب میشود و استراتژی دوم انتخاب نمیشود؛ ولی در تابع بهترین پاسخ تعدیل شده، هرچه تفاوت سود ۲ تا استراتژی کمتر میشود بهطور پیوسته درصد انتخاب ۲ استراتژی بهطور پیوسته به ۵۰: ۵۰ میل میکند.
توابع زیادی هستند که بهترین پاسخ تعدیل شده را مدل میکنند، از جمله:
که سود حاصل از استراتژی را نمایش میدهد و پارامتری است که میزان انحراف مدل تعدیل شدهٔ بهترین پاسخ را از مدل استاندارد نمایش میدهد و هر چه بیشتر باشد به معنای این است که بازیکن با احتمال بیشتری اشتباه میکند.
استفاده از این مدل تعدیل شده فواید زیادی هم در تئوری و هم در عمل دارد. از لحاظ روانشناختی زمانی که افراد نسبت به دو استراتژی تقریباً بیتفاوت هستند، به صورت تصادفی یکی از آنها را انتخاب میکنند. علاوه بر این، بازی همهٔ افراد بهطور یکسان در همهٔ حالات مشخص میشود.
مثالها
ویرایشبازی جوجه
ویرایشتصویر ۵، نمودارهای بهترین پاسخ را برای بازی جوجه نشان میدهد. در این بازی، هر کدام از دو بازیکن دو استراتژی خالص دارد و استراتژیهای بازیکنان در این بازی، گسستهاست.
رقابت کورنو
ویرایشتصویر ۶، نمودار بهترین پاسخ هر دو بازیکن نسبت به هم را برای رقابت کورنو نشان میدهد. بر خلاف بازی جوجه، در این بازی، استراتژیهای یک بازیکن پیوستهاست.
مثالی دیگر:
ویرایشبازی استراتژیکی را در نظر بگیرید که در آن:
- بازیکنان دو شرکت هستند.
- هریک از دو شرکت مقدار بودجهای را برای تبلیغات خود در نظر میگیرد.
- اگر شرکت ۱ بودجهٔ را برای تبلیغات خود اختصاص دهد و شرکت ۲ بودجهٔ را برای تبلیغات خود در نظر بگیرد، سود شرکت ۱ برابر است با: و سود شرکت ۲ برابر است با: که c یک ثابت مثبت است.
حال تعادل نش چگونه است؟
برای محاسبهٔ تعادل نش باید تابع بهترین پاسخ را برای شرکتها محاسبه کنیم. برای به دست آوردن بهترین پاسخ برای شرکت ۱ به ازای هر مقدار از شرکت ۲، را ثابت در نظر گرفته و معادلهٔ رو به رو را حل میکنیم:
مشتق عبارت بالا نسبت به برابر با میشود. زمانی که مشتق صفر میشود، مقدار سود شرکت ۱ بیشینه میشود پس:
۰ = در نتیجه: بنابراین تابع بهترین پاسخ شرکت۱ برابر است با و به طریق مشابه تابع بهترین پاسخ شرکت۲ و تعادل نش یک جفت که و .
با کم کردن ۲ تساوی از هم نتیجه میگیریم که و این یعنی بازی یک تعادل نش یکتا دارد و آن همزمانی است که بودجهٔ در نظر گرفته شده توسط هر ۲ شرکت برای تبلیغات c باشد.
جستارهای وابسته
ویرایشپانویس
ویرایشمنابع
ویرایش- Ellison, G. (1993), "Learning, Local Interaction, and Coordination", Econometrica, 61 (5): 1047–1071, doi:10.2307/2951493, JSTOR 2951493
- Fudenberg, D.; Levine, David K. (1998), The Theory of Learning in Games, Cambridge MA: MIT Press
- Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: انتشارات امآیتی. ISBN 9780262061414. Book preview.
- Gibbons, R. (1992), A primer in game theory, Harvester-Wheatsheaf
- Nash, John F. (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48–49, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
- Osborne, M.J.; Rubinstein, Ariel (1994), A course in game theory, Cambridge MA: MIT Press
- Young, H.P. (2005), Strategic Learning and Its Limits, Oxford University Press
- Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, V.V. (2007), Algorithmic Game Theory (PDF), New York: Cambridge University Press