بازی علامت‌دهی

در نظریه بازی‌ها، بازی علامت دهی یک نوع ساده از بازی بیزی پویا است.^[۱]

این بازی با دو بازیکن که به سیگنال دهنده یا فرستنده (S) و دریافت‌کننده سیگنال یا گیرنده (R) است:

سیگنال دهنده می‌تواند یکی از چندین نوع (type)باشد. $t$ نوع سیگنال دهنده است، که مشخص‌کننده تابع دستاورد (payoff function) سیگنال دهنده می‌باشد. نوع سیگنال دهنده اطلاعات خصوصی فرستنده است و برای دریافت‌کننده معلوم نیست.
گیرنده تنها یک نوع دارد، بنابراین دستاورد عملکرد وی برای هر دو بازیکن شناخته شده‌است.

این بازی دارای دو مرحله است:

در مرحله اول، فرستنده بازی می‌کند. او می‌تواند یکی از چندین عمل را که «پیام» نامیده می‌شود، بازی کند. $M$ مجموعه پیام‌های ممکن است. $M=\{m_{1},m_{2},m_{3},...,m_{j}\}$ .
در مرحله دوم گیرنده بعد از مشاهده پیام فرستنده بازی می‌کند. $A$ مجموعه اقدامات ممکن است. $A=\{a_{1},a_{2},a_{3},...,a_{k}\}$ .

این دو بازیکن دستاوردی (payoff) وابسته به نوع سیگنال دهنده، پیام سیگنال دهنده، و عملی که گیرنده انتخاب می‌کند، کسب می‌کنند.^[۲]^[۳]

تعادل بیزی کامل

مفهوم تعادلی بازی علامت دهی با تعادل بیزی کامل بیان می‌شود که ترکیبی از تعادل نش بیزی و تعادل زیر بازی کامل است.

یک فرستنده از نوع $t_{j}$ یک پیام $m^{*}(t_{j})$ در مجموعه احتمال توزیع بر روی $M$ می‌فرستد. ( $m(t_{j})$ نشان دهنده احتمال آن است که نوع $t_{j}$ هر کدام از پیام‌های درون $M$ را ارسال کند) گیرنده با مشاهده پیام $m$ یک عمل $a^{*}(m)$ در فضای توزیع احتمالی بر روی $A$ را انجام می‌دهد.

یک بازی اگر هر چهار شرط زیر را داشته باشد، در تعادل بیزی کامل است:

- گیرنده باید یک باور بر نوع فرستنده‌ای که پیام $m$ را فرستاده است داشته باشد. این باورها را می‌توان به صورت یک توزیع احتمالی $\mu (t_{i}|m)$ توصیف کرد، که بیان‌کننده احتمال آن است که گیرنده نوع $t_{i}$ پیام $m$ را انتخاب کند. جمع این احتمال بر همه نوع‌های $t_{i}$ به شرط هر پیام $m$ باید ۱ باشد.
- عملی که گیرنده انتخاب می‌کند، با توجه به انتظارات وی نسبت به اینکه چه نوعی از فرستنده پیام $m$ را فرستاده است $\mu (t|m)$ ، باید بیشینه‌کننده مطلوبیت انتظاری گیرنده باشد. این یعنی جمع $\sum _{t_{i}}\mu (t_{i}|m)U_{R}(t_{i},m,a)$ بیشینه باشد. عمل $a$ که بیشینه‌کننده جمع است را $a^{*}(m)$ می‌نامیم.
- برای هر نوع $t$ ، فرستنده پیغام $m^{*}$ را برای ارسال انتخاب می‌کند، به صورتی که مطلوبیت وی $U_{S}(t,m,a^{*}(m)$ با داده شدن استراتژی انتخاب شده گیرنده ( $a^{*}$ )، بیشینه شود.
- برای هر پیام $m$ که فرستنده می‌تواند ارسال کند، اگر یک نوع $t$ وجود داشته باشد که $m^{*}(t)$ یک احتمال اکیداً مثبت به $m$ اختصاص دهد، (برای هر پیغامی که با احتمال مثبت ارسال می‌شود)، باوری که گیرنده با مشاهده پیام $m$ بر نوع گیرنده دارد $\mu (t|m)$ ، باید قاعده بیز را رعایت کند. $\mu (t|m)=p(t)/\sum _{t_{i}}p(t_{i})$

تعادل بیزی کامل در این نوع از بازی‌ها را می‌توان به سه دسته متفاوت تقسیم کرد: تعادل درهم، تعادل جدا کننده و تعادل نیمه جدا کننده.

تعادل درهم تعادلی است که در آن فرستنده‌ها با نوع‌های مختلف، همگی یک پیام یکسان را انتخاب می‌کنند. این بدین معنی است که پیام فرستنده هیچ گونه اطلاعاتی به گیرنده نمی‌دهد؛ بنابراین باور گیرنده بعد از مشاهده پیام، تغییری نمی‌کند.
تعادل جداکننده تعادلی است که در آن فرستنده‌ها با نوع‌های مختلف همیشه پیام‌های متفاوتی را انتخاب می‌کنند. این بدین معنی است که پیام فرستنده همیشه نوع فرستنده را نشان می‌دهد، بنابراین باور گیرنده بعد از مشاهده پیام، قطعی می‌شود.
تعادل نیمه جداکننده (جزئی-تجمعی نیز نامیده می‌شود) تعادلی است که در آن برخی از نوع‌های فرستنده پیام یکسانی را انتخاب می‌کنند و نوع‌های دیگر، پیام‌های مختلفی را انتخاب می‌کنند.

توجه داشته باشید که اگر تعداد انواع فرستنده بیشتر تعداد پیام‌های موجود باشد، تعادل جداکننده هرگز نمی‌تواند وجود داشته باشد (اما ممکن است تعادل نیمه جداکننده وجود داشته باشد). همچنین تعادل ترکیبی وجود دارد که در آن فرستنده بین جداکننده و درهم تصادفی بازی می‌کند.

نمونه‌ها

بازی شهرت

گیرنده فرستنده	ماندن	خروج
عاقل، مقابله	P1+P1 D2	P1+M1, 0
عاقل، همکاری	D1+D1, D2	D1+M1, 0
دیوانه، مقابله	X1, P2	X1 0

در این بازی^{: 326–329}^[۴] فرستنده و گیرنده شرکت هستند. فرستنده یک شرکت متصدی است و گیرنده شرکت وارد شونده است.

فرستنده می‌تواند یکی از دو نوع: عاقل یا دیوانه باشد. فرستنده عاقل، می‌تواند یکی از دو پیام همکاری یا مقابله را ارسال کند. فرستنده دیوانه تنها می‌توانی پیام مقابله را ارسال کند.
گیرنده می‌تواند یکی از دو عمل ماندن یا خروج را انتخاب کند.

مطلوبیت‌ها در جدول نشان داده شده‌است. فرض می‌کنیم:

M1>D1>P1، یعنی فرستنده عاقل ترجیح می‌دهد انحصاری باشد (M1)، ولی اگر انحصاری نباشد، همکاری (D1) را بر مقابله (P1) ترجیح می‌دهد. توجه داشته باشید که مقدار X1 بی ربط است، زیرا که شرکت دیوانه تنها یک اقدام ممکن دارد.
D2>0>P2 یعنی گیرنده ماندن در بازار با رقیب عاقل (D2) را بر خروج از بازار (۰) ترجیح می‌دهد، ولی با یک رقیب دیوانه، خروج از بازار بر ماندن (P2) ترجیح دارد.
فرستنده به احتمال $p$ عاقل و به احتمال $1-p$ دیوانه است.

حال به دنبال تعادل بیزی کامل هستیم. تمایز بین تعادل جداکننده و تعادل در هم راحت است.

در این مسئله تعادل جدا کننده، تعادلی است که در آن فرستنده عاقل همواره همکاری کند. این کار باعث تمایز فرستنده عاقل و دیوانه می‌شود. در مرحله دوم، گیرنده اطلاعات کامل دارد. باور وی به این صورت است که «اگر فرستنده همکاری بکند، بنابراین عاقل است، در غیر این صورت دیوانه است». مطلوبیت فرستنده زمانی که همکاری می‌کند D1+D1 است و اگر تخطی کند، P1+M1 است؛ بنابراین یک شرط لازم برای تعادل جدا کننده، D1+D1≥P1+M1 است. یعنی هزینه مقابله بر سود انحصاری بودن غلبه کند. می‌توان نشان داد که این شرط، کافی نیز هست.
تعادل درهم تعادلی است که در آن فرستنده عاقل همواره مقابله کند. در مرحله دوم، گیرنده هیچ اطلاعات جدیدی ندارد. در این حالت باور گیرنده بر اساس احتمال اولیه عاقل و دیوانه بودن فرستنده است. یعنی به احتمال $p$ فرستنده عاقل است و به احتمال $1-p$ فرستنده دیوانه است؛ بنابراین سود انتظاری گیرنده از ماندن در بازار برابر است با [p D2 + (1-p) P2]. گیرنده در بازار می‌ماند، اگر و تنها اگر سود انتظاری اش مثبت باشد. فرستنده تنها زمانی از مقابله سود می‌برد که گیرنده از بازار خارج شود؛ بنابراین یک شرط لازم تعادل درهم، p D2 + (1-p) P2 ≤ ۰ است. (به صورت شهودی، گیرنده محتاط است و زمانی که ریسک دیوانه بودن فرستنده وجود داشته باشد، وارد بازار نمی‌شود. فرستنده این را می‌داند و هویت واقعی خود را با بازی همیشگی مقابله پنهان می‌کند) ولی این شرط کافی نیست؛ اگیر گیرنده بعد از همکاری نیز خارج شود، برای فرستنده بهتر است که همکاری کند، زیرا همکاری از مقابله ارزان‌تر است. پس لازم است که گیرنده بعد از همکاری در بازار بماند، یعنی D1+D1<P1+M1 باشد. (سود انخصاری بودن، بر هزینه مقابله غلبه کند). در نهایت باید مطمئن شد ماندن در بازار بعد از همکاری بهترین پاسخ گیرنده است. برای این موضوع باید باور گیرنده را بعد از همکاری مشخص کنیم. می‌توان باور گیرنده را به این صورت در نظر گرفت که «اگر فرستنده همکاری کرد، پس عاقل است.»

به‌طور خلاصه:

اگر مبارزه برای فرستنده عاقل هزینه‌بر باشد (D1+D1≥P1+M1)، همکاری می‌کند و یک تعادل یکتای جداکننده (PBE (Perfect Bayesian Equilibrium وجود خواهد داشت. گیرنده بعد از همکاری در بازار می‌ماند و بعد از مقابله خارج می‌شود.
اگر مقابله برای فرستنده عاقل هزینه زیادی نداشته باشد (D1+D1<P1+M1)، و برای گیرنده ماندن ضررده باشد (p D2 + (1-p) P2 ≤ ۰)، فرستنده مقابله می‌کند و یک تعادل یکتای درهم PBE وجود خواهد داشت. مجدداً گیرنده بعد از همکاری می‌ماند و بعد از مقابله خارح می‌شود، در اینجا فرستنده حاضر است مقداری از سودش را با مقابله بازی کردن در دوره اول از دست بدهد، تا بنگاه مقابل (گیرنده) را قانع کند که خارج شود.
اگر مقابله برای فرستنده عاقل هزینه‌بر نباشد و همچنین برای گیرنده نیز ضرر نداشته باشد، تعادل PBE در استراتژی‌های خالص (pure) وجود نخواهد داشت. یک تعادل یکتای PBE در استراتژی‌های مخلوط وجود دارد که هر دوی فرستنده و گیرنده بین دو حرکت خود به صورت تصادفی بازی می‌کنند.

بازی تحصیلات

این بازی اولین بار توسط مایکل اسپنس (به انگلیسی: Michael Spence) معرفی شد.^[۵]^{: 329–331} در این بازی فرستنده کارگر یا نیروی کار است و گیرنده کارفرما است.

کارگر می‌تواند یکی از دو نوع باشد: زرنگ با احتمال $p$ و کم‌هوش با احتمال $1-p$ . هر نوع می‌تواند سطح تحصیلات خود را انتخاب کند. یعنی به دانشگاه برود یا اینکه در خانه بماند. دانشگاه رفتن هزینه دارد. این هزینه برای فرد باهوش کمتر از فرد کم‌هوش است.
کارفرما باید حقوق پیشنهادی به کارگر را انتخاب کند. هدف کارفرما این است که حقوق بالاتری به فرد باهوش و حقوق کمتر به فرد کم‌هوش پیشنهاد کند؛ ولی کارفرما نوع اصلی کارگر را نمی‌داند و تنها از سطح تحصیلات وی خبر دارد.

در این مدل برای سادگی فرض می‌شود که سطح تحصیلات بر بهره‌وری کارگر تأثیر ندارد و تنها به عنوان سیگنالی از استعداد کارگر عمل می‌کند.

به‌طور خلاصه، تنها کارگران با توانایی بالا می‌توانند سطح تحصیلاتی را کسب کنند که هزینه آن کمتر از افزایش حقوق باشد. یعنی برای کارگران با توانایی بالا، منافع تحصیلات بیشتر از هزینه‌های آن است؛ بنابراین تنها کارگران با توانایی بالا تحصیل می‌کنند.

این مسئله می‌تواند پیچیده‌تر باشد. فرض کنید بهره‌وری هر کارگر به اندازه $\theta$ باشد و هزینه درس خواندن به صورت $c(\theta ,e)$ باشد که نسبت به سطح تحصیلات ( $p$ ) اکیداً صعودی است ( ${\partial c(\theta ,e)}/{\partial e}>0$ ) و نسبت به سطح توانایی ( $\theta$ ) اکیداً نزولی است ( ${\partial c(\theta ,e)}/{\partial \theta }<0$ )، یعنی هر چه فرد بیشتر درس بخواند، باید هزینه بیشتری بدهد و هر چه فرد تواناتر باشد، هزینه تحصیلات کمتر است. همچنین هزینه نهایی تحصیلات نسبت به توانایی فرد اکیداً نزولی است ( ${\partial ^{2}c(\theta ,e)}/{\partial e\partial \theta }<0$ ) و نسبت به سطح تحصیلات اکیداً صعودی است ( ${\partial ^{2}c(\theta ,e)}/{\partial e^{2}}>0$ ). در حالت کلی این مسئله می‌تواند تعادل جدا کننده، تعادل درهم یا مخلوطی از این دو تعادل را داشته باشد.

بازی آبجو-املت

بازی آبجو-املت (به انگیسی: Beer-Quiche game) اولین بار توسط کو و کرپس (Cho and Kreps) معرفی شد.^[۶] در این بازی، نفر اول (فرستنده) به احتمال $p$ حالت قوی و به احتمال $1-p$ حالت ضعیف دارد. حالت قوی فرستنده، آبجو را بیشتر دوست دارد و حالت ضعیف املت را دوست دارد. نفر دوم حالت فرستنده را نمی‌داند و با توجه به انتخاب غذای فرستنده، می‌تواند یکی از دو عمل مبارزه یا تسلیم را انتخاب کند. اگر فرستنده قوی باشد و گیرنده مبارزه کند، گیرنده می‌بازد. و اگر فرستنده ضعیف باشد و گیرنده مبارزه کند، گیرنده می‌برد. دستاورد فرد اول بسته به بردن یا باختن وی و همچنین انتخاب غذای مورد علاقه‌اش وابسته است. فرد دوم با بردن در برابر فرستنده ضعیف یا تسلیم شدن در برابر فرستنده قوی، دستاوردی مثبتی به دست خواهد آورد، در غیر این صورت، یعنی باختن در برابر فرد قوی یا تسلیم شدن به فرد ضعیف دستاوردی نخواهد داشت.

کاربردهای بازی علامت‌دهی

بازی علامت‌دهی شرایطی را توصیف می‌کند که یک بازیکن اطلاعات دارد و دیگری ندارد. چنین شرایط اطلاعات نامتقارن در اقتصاد و زیست‌شناسی رفتاری بسیار مرسوم است.

فلسفه

اولین بازی علامت‌دهی، بازی علامت‌دهی لوئیس بود که در پایان‌نامه دکترای دیوید لوئیس (به انگلیسی: David K. Lewis) آمده است که بعدها کتاب قرارداد شد. ^[۷] در پاسخ به ویلارد کواین،^[۸]^[۹] لوئیس سعی کرد تا نظریه قرارداد و مفهوم را با بازی علامت‌دهی توسعه دهد.

اقتصاد

اولین کاربرد بازی علامت‌دهی در مسائل اقتصاد، مسئله بازی تحصیلات مایکل اسپنس است. دومین کاربرد آن مسئله بازی اعتبار است. علامت‌دهی یک راهی برای مسئله کژمنشی است. در کژمنشی، در حالت اطلاعات نامتقارن، باعث می‌شود که در نهایت کالای بی کیفیت در بازار بماند و معامله شود. چند مثال از آن، مسئله بازار کار با نیروی کار دارای توانایی‌های مختلف، مسئله بازار خودروی دست دوم و دیگر مسائلی از این قبیل است. این مسائل تا حدی با علامت‌دهی مناسب قابل حل است، به‌طور مثال در بازار کار تحصیلات می‌تواند به عنوان یک سیگنال مناسب عمل کند. یا در بازار خودرو مقدار کارکرد خودرو به عنوان یک سیگنال در نظر گرفته می‌شود. در اقتصاد با شروع از مدل‌های بسیار ساده تا مدل‌های پیچیده‌تر اینگونه از مسائل بررسی می‌شود. امکان علامت‌دهی باعث می‌شود در مقایسه با حالتی که علامت‌دهی امکان نداشته باشد، به بهینه پرتو نزدیک‌تر شویم.

زیست‌شناسی

پیشرفت‌های با ارزشی در زمینه سوالات زیست‌شناسی با استفاده از بازی علامت‌دهی انجام شده‌است. قابل توجه‌ترین آنها، مدل امتیاز دهی الن گرافن برای جلب نظر جفت است.

پیام‌دهی هزینه‌بر در مقابل پیام‌دهی بدون هزینه

یکی از کاربردهای اصلی بازی علامت‌دهی در اقتصاد و زیست‌شناسی، این است که مشخص کنند در چه شرایطی پیام‌دهی صادقانه می‌تواند یک تعادل بازی باشد. یعنی در چه شرایطی می‌توان انتظار داشت که انسان‌های عقلایی یا حیوانات، اطلاعات نوع خود را آشکار کنند؟

اگر در هر دو سمت، منافع هم‌جهت باشد، یعنی هر دو در همه شرایط خروجی یکسانی را ترجیح بدهند، راستگویی می‌تواند یک تعادل باشد. البته در بیشتر این دسته از مسائل، تعادل‌های غیر همکارانه نیز وجود دارد؛ ولی اگر منافع دو طرف کاملاً هم‌جهت نباشد، ماندن در تعادلی که پیام حاوی اطلاعات باشد، مشکلاتی را به همراه دارد.

حالتی را که جان مینارد اسمیت توصیف کرده بود در نظر بگیرید که در آن پیام‌دهنده می‌تواند گرسنه باشد یا از گرسنگی در حال مرگ باشد. فرد می‌تواند این موضوع را به شخص دیگری که غذا دارد بگوید. فرض کنیم که فرستنده مستقل از وضعیت خود غذا را دوست داشته باشد؛ ولی فرد دوم تنها در حالتی غذا را به فرد اول می‌دهد که فرد اول از گرسنگی در حال مرگ باشد. با اینکه در حالت مردن از گرسنگی منافع هر دو هم‌جهت است، ولی وقتی شخص اول فقط گرسنه باشد، منافع آن دو در تضاد خواهد بود و فرد اول انگیزه دارد دربارهٔ وضعیت خود دروغ بگوید؛ بنابراین فرد دوم باید پیام را در نظر نگیرد و هر کاری که فکر می‌کند درست است را انجام دهد.

اقتصاددانان و زیست‌شناسان وجود هزینه برای علامت‌دهی را دارای نقش مهمی می‌دانند. اگر علامت‌دهی هزینه‌بر باشد، ممکن است برای فردی که فقط گرسنه است صرف نکند که دربارهٔ وضعیت خود دروغ بگوید. تحلیل اینکه چه زمانی هزینه برای باقی ماندن در راستگویی مهم است، زمینه مهمی از تحقیقات در هر دوی این رشته‌ها است.

همین‌طور ببینید

حرف مفت
شکل گسترده بازی
اطلاعات ناکامل
بازی غربالگری - یک بازی مرتبط که گیرنده به جای انتخاب عمل با توجه به پیام دریافت شده، یه فرستنده پیشنهادهای مبتنی بر نوع فرستنده می‌دهد.
سیگنال‌دهی (اقتصاد)
نظریه سیگنال‌دهی

منابع

↑ Subsection 8.2.2 in Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: انتشارات ام‌آی‌تی. pp. 326--331. ISBN 9780262061414. Book preview.
↑ Gibbons, Robert (1992). A Primer in Game Theory. New York: Harvester Wheatsheaf. ISBN 0-7450-1159-4.
↑ Osborne, M. J. & Rubenstein, A. (1994). A Course in Game Theory. Cambridge: MIT Press. ISBN 0-262-65040-1.
↑ which is a simplified version of a reputation model suggested in 1982 by Kreps, Wilson, Milgrom and Roberts
↑ Spence, A. M. (1973). "Job Market Signaling". Quarterly Journal of Economics. 87 (3): 355–374. doi:10.2307/1882010.
↑ Cho, In-Koo; Kreps, David M. (مه ۱۹۸۷). [JSTOR 1885060. doi:10.2307/1885060. «Signaling Games and Stable Equilibria»] مقدار |پیوند= را بررسی کنید (کمک). The Quarterly Journal of Economics: ۱۰۲: ۱۷۹–۲۲۲.
↑ Lewis, D. (1969). Convention. A Philosophical Study. Cambridge: Harvard University Press.
↑ Quine, W. V. O. (1936). "Truth by Convention". Philosophical Essays for Alfred North Whitehead. London: Longmans, Green & Co. pp. 90–124. ISBN 0-8462-0970-5.
↑ Quine, W. V. O. (1960). "Carnap and Logical Truth". Synthese. 12 (4): 350–374. doi:10.1007/BF00485423.

[ft91-1] Subsection 8.2.2 in Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: انتشارات ام‌آی‌تی. pp. 326--331. ISBN 9780262061414. Book preview.

[2] Gibbons, Robert (1992). A Primer in Game Theory. New York: Harvester Wheatsheaf. ISBN 0-7450-1159-4.

[3] Osborne, M. J. & Rubenstein, A. (1994). A Course in Game Theory. Cambridge: MIT Press. ISBN 0-262-65040-1.

[4] which is a simplified version of a reputation model suggested in 1982 by Kreps, Wilson, Milgrom and Roberts

[5] Spence, A. M. (1973). "Job Market Signaling". Quarterly Journal of Economics. 87 (3): 355–374. doi:10.2307/1882010.

[6] Cho, In-Koo; Kreps, David M. (مه ۱۹۸۷). [JSTOR 1885060. doi:10.2307/1885060. «Signaling Games and Stable Equilibria»] مقدار |پیوند= را بررسی کنید (کمک). The Quarterly Journal of Economics: ۱۰۲: ۱۷۹–۲۲۲.

[7] Lewis, D. (1969). Convention. A Philosophical Study. Cambridge: Harvard University Press.

[8] Quine, W. V. O. (1936). "Truth by Convention". Philosophical Essays for Alfred North Whitehead. London: Longmans, Green & Co. pp. 90–124. ISBN 0-8462-0970-5.

[9] Quine, W. V. O. (1960). "Carnap and Logical Truth". Synthese. 12 (4): 350–374. doi:10.1007/BF00485423.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]