الفصل الثاني

دراسة الاحتمالات

إنَّ تحليل الكاتب كونان دويل لرؤيته التي أوردها عن لعبة مطابقة العملات المعدنية في رواية «المسألة الأخيرة»؛ لا يعكس الكثير من البراعة الفكرية المزعومة لبطله. أما الكاتب والروائي إدجار آلان بو، فيقدِّم عملًا أفضل في روايته «الرسالة المسروقة»؛ حيث يسرق الوزير (الذي يؤدِّي شخصية الشرير في الرواية) رسالةً، وتكمن المشكلة في تحديد المكان الذي يتعيَّن البحث فيه عن هذه الرسالة.

يرى بو أنَّ السبيل إلى حل هذا اللغز هو المُضيُّ في سلاسل التفكير من قبيل «هو يعتقد أنني أعتقد أنه يعتقد أنني أعتقد …» إلى ما هو أبعد من منافسك بخطوةٍ واحدة. ودفاعًا عن هذه الفرضية، فقد اختلق بو صبيًّا يفوز باستمرارٍ في لعبة مطابقة العملات المعدنية من خلال محاكاة تعبيرات وجهِ منافسه؛ ومن ثَمَّ يتعرَّف بذلك على ما يجول بخاطره في اللحظة الراهنة. ومن المثير للدهشة بكل تأكيدٍ الطريقةُ التي يكشف بها العديد من لاعبي البوكر عن بطاقاتهم بطريقةٍ غير مقصودةٍ لعجزهم عن التحكُّم في لغة أجسادهم، لكن لا يستطيع «كلٌّ» مِن أليس وبوب استخدام حيلة بو بنجاحٍ حتى لو تعلَّم أيٌّ مِنهما التحكُّم في تعبيرات وجهه على النحو الذي لا يمكن معه للطرف الآخر أن يستشِفَّ أيَّ انفعالٍ أو انطباعٍ لديه.

تتفادى نظريةُ الألعاب سلسلةَ الارتداد اللانهائي الواضحة التي واجهتْها أليس وبوب باللجوء إلى فكرة توازن ناش. ولكن ما زالت لدينا مشكلة؛ لأنَّ وضع دائرة حول الردود المُثلى لا يُجدي مع لعبة مطابقة العملات المعدنية؛ فبعد وضع دائرة حول العوائد التي تُمثل ردودًا مُثلى في شكل ١-٣، نتوصَّل في النهاية إلى حالتين من توازن ناش في لعبة القيادة، بينما لا نتوصل إلى أيِّ توازنٍ في لعبة مطابقة العملات المعدنية.

ربما تبدو هذه الحقيقة غامضة لمَنْ يذكرون أن سبب فوز جون ناش بجائزة نوبل يرجع جزئيًّا إلى كونه أثبتَ أنَّ لجميع الألعاب المتناهية توازنًا واحدًا على الأقل. والرد على هذا الغموض هو أننا في حاجةٍ إلى النظر لما هو أبعد من الاستراتيجيات الخالصة التي درسناها حتى الآن، والتطرُّق أيضًا إلى دراسة الاستراتيجيات المختلطة.

(١) هل ثَمَّةَ منطق للاختيارات العشوائية؟

تقتضي الاستراتيجية المختلطة أن يختار اللاعبون استراتيجياتهم الخالصة عشوائيًّا. من الطبيعي الاعتراض على مقولة إن الأشخاص المختلين عقليًّا هم فقط مَنْ يتَّخذون قراراتٍ جديةً بطريقةٍ عشوائية، لكن الاستراتيجيات المختلطة تُستخدَم طوال الوقت دون أن يدرك أحدٌ ذلك.

إنَّ مثالي المفضَّل في هذا الصدد عندما كنتُ أقدِّم استشارة لشركة رحلاتٍ سياحيةٍ شاملةٍ بشأن مسألةٍ تنظيمية. وفقًا لتنبُّؤات نظرية الألعاب، سوف تستخدم هذه الشركة استراتيجيةً مختلطةً في لعبة تحديد الأسعار التي تلعبها عندما يتَّضح أن الطلب على الرحلات السياحية أثناء العطلات محدودٌ للغاية على نحوٍ غير متوقَّع. ولكن عندما سألتُ مسئولًا تنفيذيًّا كبيرًا إذا ما كانت شركته قد انتهجت أسلوبًا عشوائيًّا في تحديد أسعار العام السابق، بدا عليه الانزعاج الشديد من هذا الاقتراح الغريب. وعندما سألتُه عن سر التبايُن الشديد إذن في أسعار الرحلات السياحية المتشابهة، كانت إجابته تحمل دلالةً علميةً مفيدة: «يجب أن تَفرض على المنافسين الدخول في حالة من التخمين المستمر.»

يتَّضح من إجابته أنه يفهم جيدًا السبب الذي لأجله تُوصي نظرية الألعاب باستخدام الاستراتيجيات المختلطة. ولكن، ما لم يرغب في الاعتراف به هو أن طريقةَ شركته في تحديد الأسعار هي في الأساس طريقة عشوائية. فلَم يُنظِّم أحد داخل هذه الشركة سياسة التسعير، ولم يضع أحد خطةً لها. ولكن من وجهة نظرِ منافسٍ يحاول التنبُّؤ بالأسعار التي ستفرضها شركته مقابل قضاء أسبوعين في جزر الباهاما، من المحتمَل الأخذ بأداة الاختيار العشوائي.

(٢) توازنات ناش المختلطة

إنَّ استخدام الاستراتيجيات المختلطة ليس بالأمر المستغرَب على الإطلاق في لعبة مطابقة العملات المعدنية؛ حيث تكمن الفكرة كلُّها في إدخال الخصم في حالةٍ من التخمين المستمر. وكما هو معلومٌ بداهةً، فإنَّ الحل هو التبديل على نحوٍ عشوائيٍّ بين الاختيارين «صورة» و«كتابة». وإذا استَخدم كلا اللاعبَيْن هذه الاستراتيجية المختلطة، فإن النتيجة هي الوصول إلى حالةٍ من توازن ناش؛ ومن ثَمَّ، يفوز كل لاعب لِنِصف الوقت، وهو أفضل ما يمكن لكلٍّ منهما فعله في ضوء الاستراتيجية التي يختارها اللاعب الآخر.

بالمثل، يصل اللاعبان في لعبة القيادة إلى توازن ناش إذا اختار كلٌّ منهما «يسار» و«يمين» بقدر متساوٍ من الاحتمالية، وهو ما يُحقِّق بدوره ثلاث حالاتٍ من توازن ناش؛ حالتين خالصتين وحالةً ثالثة مختلطة. وينطبق الأمر نفسه على لعبتَي ضبط الأعصاب والصراع بين الجنسين، إلا أن توازن ناش المختلط في لعبة الصراع بين الجنسين يتطلَّب من كلا اللاعبَيْن أكثر مما يحصل عليه ببساطةٍ كلٌّ مِنهما من استراتيجياته الخالصة التي تشترك في القدر نفسه من الاحتمالية.

شكل ٢-١: رمي النَّرْد.

في لعبة الصراع بين الجنسين، يحب بوب لعبة الملاكمة ضِعف حبه للباليه؛ لذلك على أليس أن تختار «الملاكمة» نِصف عدد المرات التي يختار بوب فيها «الباليه»، حتى تضمن أن بوب يُحصِّل نفس العائد في المتوسط مِن استراتيجيَّتَيه الخالصتين. ونظرًا لأن بوب لا يهتم بتحديد أيٍّ من استراتيجيَّتيه الخالصتين سيتَّبع خلال اللعب، فجميع استراتيجِيَّاته إذن ستكون على الدرجة نفسها من الملاءمة، بما في ذلك الاستراتيجية المختلطة التي تجعل احتمالية اختيار «الباليه» نِصف احتمالية اختيار «الملاكمة». لكن استخدام هذه الاستراتيجية المختلطة يجعل أليس غير متحيِّزة لأيٍّ من استراتيجيَّتَيها الخالصتين؛ ومن ثَمَّ، تتساوى جميع استراتيجِيَّاتها في درجة الملاءمة، بما في ذلك الاستراتيجية المختلطة التي تجعل احتمالية اختيار «الملاكمة» ضِعف احتمالية اختيار «الباليه». ويتَّضح من هذه الحلقة المكتمِلة أننا توصَّلنا إلى حالةٍ من توازن ناش المختلط يتبع فيها كلٌّ مِن أليس وبوب استراتيجِيَّته المفضَّلة لثُلثي الوقت.

(٢-١) إدخال الخصم في حالةٍ من عدم التحيُّز لأيٍّ من الاستراتيجيات المطروحة

إنَّ اللاعبِين العقلانيين لا يلجَئُون إلى المفاضلة على نحوٍ عشوائيٍّ بين استراتيجيَّتَين خالصتين إلا إذا كانوا يشعرون بعدم التحيُّز لأيٍّ منهما. وإذا كانت إحدى الاستراتيجيتين أفضل من الأخرى، فلا سبيل مطلقًا إلى الأخذ بالاستراتيجية الأسوأ أثناء اللعب. فما الذي يجعلك غيرَ متحيِّزٍ لأيٍّ من الاستراتيجيتين؟ يرجع السبب في لعبة الصراع بين الجنسين إلى اعتقادك أن مُنافسك سيختار استراتيجية مختلطة تُعادل متوسط العائد الذي تحصل عليه من كل استراتيجية من استراتيجيَّتَيك. وتؤدِّي هذه الخاصية لتوازن ناش المختلط أحيانًا إلى نتائج تبدو للوهلة الأولى متناقضةً.

تُلعب لعبة السامري الصالح من قِبل مجموعة من اللاعبين المتماثلين، يبحثون جميعًا عن شخصٍ يستجيب لاستغاثتهم. يحصل كل لاعب على عشر وحداتٍ من اليوتل إذا حظي بمساعدة شخصٍ ما، ولا يحصل على أي شيءٍ إذا لم يحظَ بأي مساعدة. ولكنَّ العقبة أن المساعدة تُسبِّب ضررًا للاعب الذي يعرض المساعدة؛ إذ يتعيَّن خصم يوتل واحد من عوائده.

إذا لم يعتزم أحدٌ المساعدةَ، فالحل الأمثل هو أن تَعْرض المساعدة بنفسك. أما إذا كان الجميع يعتزم المساعدة، فيمكنك زيادة مكسبك لأقصى درجة بالوقوف ساكنًا دون فعل شيء؛ لذلك، فالسيناريو الوحيد المحتمَل للوصول إلى توازن ناش في هذه الحالة هو أن يستخدم الجميع الاستراتيجية نفسها على نحوٍ مستقل، ولا بد بالضرورة أن تكون استراتيجيةً مختلطة. في توازن ناش المختلط هذا، يُفترض بالضرورة أن يوجد احتمال واحد بين كل عشرة احتمالات لعدم عرض المساعدة من أي شخص؛ لأن هذه هي الوتيرة التي تجعلك غيرَ متحيِّزٍ لفكرة تقديم المساعدة أو عدم تقديمها.

إنَّ الاحتمال الفعلي لتقديم المساعدة في حالة التوازن يكون أعلى إلى حدٍّ ما؛ نظرًا لاحتمالية تقديم المساعدة بنفسك. ولكن، يقل احتمال تقديم أي لاعب منفرد للمساعدة في حالة التوازن مع تزايد عدد اللاعبين؛ لأن احتمال عدم تقديم المساعدة من قِبل أي لاعب يظل ثابتًا عند النسبة ١ / ١٠؛ لذا، كلما زاد عدد اللاعبين يقل احتمال تقديم المساعدة من قِبل أي لاعب. فمع وجود لاعبَين اثنين فقط، يكون احتمال تقديم المساعدة من قِبل كلٍّ منهما هو ٩ / ١٠ ويجري تجاهل الاستغاثة مرةً واحدةً فقط كل مائة مرة. ومع وجود مليون لاعب، يقل احتمال تقديم المساعدة من قِبل كل لاعب لدرجة تجاهُل الاستغاثة تمامًا مرةً واحدةً كل عشر مرات.

إنَّ النتائج المترتبة على هذه الاحتمالات المتوالية يمكن أن تكون مُثبِّطة، كما يتَّضح من إحدى القضايا المشهورة في نيويورك، التي تعرَّضت فيها سيدةٌ لاعتداءٍ بعد غروب الشمس، وقُتلت في نهاية المطاف على قارعة الطريق. وقد سمع الكثيرون استغاثاتها لكنْ لم يتصل أحدٌ بالشرطة. هل نؤيد ما خلصت إليه الصحف من أننا جميعًا صرنا وحوشًا بفعل حياة المدينة الجامدة؟ ربما تكون حياة المدينة قد حوَّلتنا بالفعل إلى وحوش، لكنَّ لعبة السامري الصالح تشير إلى أن الناس قد يتصرَّفون على هذا النحو حتى في البلدة الصغيرة إذا ما تعرَّضوا للموقف نفسه.

ينطبق الأمر نفسه على عملية التصويت في الانتخابات. ولْنأخذ إحدى الحالات القصوى مثالًا على ذلك؛ افترضْ أن أليس وبوب هما المرشحان الوحيدان للرئاسة. من المعروف أن بوب حالة ميئوس منها؛ فأمُّه هي الشخص الوحيد الذي يرى أنه سيكون الرئيس الأفضل، وسوف تُصوِّت لصالحه بكل تأكيد، ولكن ما الذي يمكن أن يدفع أيَّ شخص آخر إلى التصويت لبوب؟ كما في لعبة السامري الصالح، تؤدِّي زيادة عدد الناخبين إلى جعْل الوضع أسوأ؛ ففي حالة التوازن، يصل معدل انتخاب بوب إلى مستوى احتماليةٍ لا يمكن خفضه حتى مع وجود مليون ناخِب.

إنَّ ألعاب التصويت هذه لا تعدو أن تكون أكثر من مجرد ألعابٍ للتسلية؛ فنادرًا ما يُفكِّر الناس بأسلوبٍ عقلاني في احتمالية مشاركتهم في التصويت من عدمها. وحتى لو فكَّروا على هذا النحو، فقد يشعرون بأن الذهاب إلى صناديق الانتخاب هو بالأحرَى متعةٌ وليس مصدرًا لتكبُّد المشقَّة. لكن يتَّضح من المثال الحالي أن المثقفين الذين يتهمون الأقلية — البالغة نسبتُهم ٤٠٪ تقريبًا — الذين يُحجمون عن التصويت في الانتخابات الرئاسية باللاعقلانية؛ يُفتون فيما لا يعلمون. فلو كنا نريد عددًا أكبر من الناخبين، فعلينا أن ننتقل إلى نظامٍ لا مركزي، يكون فيه لكل صوتٍ أهميته التي تفوق نقص الحماس الذي يشعر به الكثيرون تجاه التصويت. وإذا لم نستطع أن نُقنع هؤلاء الأشخاص بالمشاركة في التصويت ولم نكن نريد تغيير نظامنا السياسي، فعلينا إذن أن نرضى ببقائهم في منازلهم ليلة الانتخابات. ولن يُجديَ وقتَها رفعُ شعار «لكل صوتٍ أهميته».‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬

(٣) الوصول إلى التوازن

كيف يصل الناس إلى توازن ناش؟ هذا سؤالٌ لا بد من طرحه، لا سيَّما في حالة التوازن المختلط. فلماذا يتعيَّن على أليس تعديل سلوكها بحيث تجعل بوب غير متحيِّزٍ تجاه بعض استراتيجياته؟

تشير الدراسات التي أُجريت حول الألعاب الرياضية إلى أن الرياضيين يتصرَّفون أحيانًا على نحوٍ متوافقٍ إلى حدٍّ كبيرٍ مع تنبُّؤات نظرية الألعاب. ولْنأخذ مثالًا على ذلك ضربات الجزاء في كرة القدم؛ أين ينبغي تسديد الكرة؟ في أي اتجاه يجب أن يقفز حارس المرمى؟ ويُقدِّم التنس مثالًا آخر؛ هل ينبغي أن أقذف الكرة بقوةٍ أم ببطءٍ في خطٍّ أشبه بالقوس العالي؟ من غير المتوقَّع أن يقرأ المدربون أيَّ كتب في نظرية الألعاب، فكيف يعرفون إذن الوتيرة المناسبة لكل اختيار؟ إنهم يتعلمون — على ما يبدو — بأسلوب المحاولة والخطأ.

لا أحدَ يفهم كل الطرق المختلفة التي يتعلم من خلالها الناسُ في الحياة الواقعية فعلَ الأمور الجديدة، لكن ثَمَّةَ بعض الأمثلة التي توضِّح بعضًا مما يحدث بالفعل. ويقدم المثال البسيط التالي نموذجًا مدهشًا.

أليس وبوب روبوتان يلعبان نفس اللعبة مرارًا وتكرارًا. وفي كل مرة، تكون أليس مبرمَجة على تقديم الرد الأمثل على استراتيجيةٍ مختلطةٍ تُلعب فيها إحدى استراتيجيات بوب الخالصة بنفس التكرار الذي لعبها به في الماضي. ونظرًا لأن بوب مبرمَج بالطريقة نفسها، فلا أحدَ منهما يتسم بالعقلانية الكاملة؛ لأن كلًّا منهما يستطيع تحسين عوائده أحيانًا لو جَرَت برمجته ببراعةٍ أكبر. ويرى خبراء نظرية الألعاب أنَّ كلا الروبوتَين هنا عقلانيٌّ بدرجة محدودة.

بمرور الوقت، تتطوَّر تدريجيًّا التكرارات التي لعبَ بها الروبوتان ثانيَ استراتيجية خالصة لديهما كما هو مبيَّن في شكل ٢-٢ (الذي جرى تبسيطه بالانتقال من الوقت المتقطع إلى الوقت المتواصل). فعلى سبيل المثال، الرد الأمثل لأليس في لعبة مطابقة العملات المعدنية هو «كتابة» كلما زاد معدل اختيار بوب ﻟ «كتابة» عن النصف؛ لذلك، معدل اختيارها ﻟ «كتابة» سيزيد إلى أن يصبح معدل اختيار بوب ﻟ «كتابة» أقلَّ من النصف، وهو المستوى الذي يبدأ بعده في الانخفاض المفاجئ.

شكل ٢-٢: كيفية الوصول إلى حالة توازن أثناء اللعب.

يؤدِّي دائمًا اتِّباع الأسهم في شكل ٢-٢ إلى توازن ناش. وبصرف النظر عن البرمجة الأولية للروبوتين، سيجد الشخص الذي يُحصي كم مرة لعبَ الروبوتان كل استراتيجية من استراتيجياتهما الخالصة؛ أنه من الصعب تمييز أحد الروبوتين ذَوَي العقلانية المحدودة عن اللاعِب العقلاني تمامًا.

في حالة مطابقة العملات المعدنية، التي تُعد الأقرب إلى لعبة التنس أو كرة القدم، تقترب دائمًا التكرارات التي يُلعب بها «صورة» و«كتابة» من قيم التوازن ١ / ٢. وفي التجارب المعملية التي أُجريت على الإنسان، يكون النمط العام واحدًا تقريبًا، على الرغم من أن التكرارات لا تتطوَّر على هذا النحو المنتظم وتبدأ في الانحدار عندما تقترب بدرجةٍ كافيةٍ من حالة توازنٍ مختلط؛ لأنَّ اللاعبين لا يشعرون عندئذٍ بتحيُّزٍ تقريبًا لأيٍّ من الاستراتيجيات المتوافرة.

يكون الوضع أكثر تعقيدًا في لعبة ضبط الأعصاب؛ فلكلِّ توازنٍ خالصٍ حوضُ تجاذُب، وهو عبارة عن مجموعةٍ من النقاط أو الشروط الأولية التي يقترب عندها نظامٌ ديناميكي بطريقةٍ عفويةٍ من عامل جذبٍ معين. إذا برمجْنا الروبوتين من البداية بحيث يبدآن في حوض التجاذب الخاص بتوازنٍ معين، فسوف يلتقيان في النهاية في نقطةٍ واحدةٍ مع هذا التوازن. يقع حوض التجاذب للزوج («إبطاء»، «إسراع») أعلى الخط القطري في شكل ٢-٢، بينما يقع حوض التجاذب للزوج («إسراع»، «إبطاء») أسفل الخط القطري. أما حوض التجاذب للتوازن المختلط، فهو الخط القطري نفسه.

من السهل تصميم ألعاب يتكرر فيها سلوك روبوتين مثل أليس وبوب على نحوٍ دائريٍّ إلى ما لا نهاية دون الوصول أبدًا إلى حالة توازن، لكنَّ الأمر يختلف في حالة البشر؛ لأنهم يستطيعون التعلُّم بطرقٍ أكثر تعقيدًا من أليس وبوب. وعلى وجه التحديد، نحن نحصل عادةً على قدرٍ أكبر من التغذية الاسترجاعية من كل أنواع المصادر المتوافرة، بينما نتعلَّم كيفية التصرف عند ممارسة لعبة جديدة.

على سبيل المثال، يتعلم سماسرة الأوراق المالية المبتدئون أصول العمل من زملائهم الأكثر خبرةً. ويقرأ العلماء الشباب بتمعُّنٍ تاريخَ الحائزين على جائزة نوبل؛ على أمل معرفة سر نجاحهم. ويجتهد الروائيون في إعادة معالجة حبكات الروايات الأكثر بيعًا. ويُخبر مختصُّو التسويق بعضُهم بعضًا بسُبل العثور على أفضل الصفقات. وتُركِّز هذه الأمثلة الخاصة بالتعلُّم الاجتماعي أو التعلُّم القائم على المحاكاة؛ على توازنات ناش بسرعةٍ وموثوقيةٍ أكبر مما في الأمثلة التي يتعلم فيها أشخاص بمفردهم بأسلوب المحاولة والخطأ.

تُعنى نظرية الألعاب التطوُّرية بدراسة هذه الأمثلة التفاعلية. ونظرًا لتطبيقاتها المهمة للغاية في علم الأحياء التطوُّري، فإنها تستحق أن نُفرد لها فصلًا كاملًا (الفصل الثامن).

(٤) نظرية أدنى الأقصى

عندما قَدِمَ الشابُّ جون ناش إلى مكتب فون نيومان كي يخبره بحجته التي تثبت أن كل الألعاب المتناهية المحدودة يكون لها توازنٌ واحد على الأقل عند السماح بالاستراتيجيات المختلطة، بدا فون نيومان غير مهتم. تُرى، لماذا لم يرحب فون نيومان برأي ناش؟

في الحقيقة، لم يكن الأسلوب الذي استخدمه ناش لإثبات نظريته جديدًا على فون نيومان، الذي مهَّد الطريق لهذا الأسلوب بنفسه. كما أن النهج الذي اتَّبعه ناش في العرض لفكرته لم يكن كيِّسًا؛ وهو الذي زار ألبرت أينشتاين — كما هو معروف — في تلك الأثناء ليُخبره بكيفية البحث في مجال الفيزياء. ولكن، لم يكن فون نيومان لِيَعْبأ بأمرِ متخرِّجٍ شابٍّ ومتحمسٍ يستعرض ما لديه من معلوماتٍ في مجاله؛ لذا، أعتقد أن ثَمَّةَ سببًا أعمق لعدم اكتراث فون نيومان.

يبدو أن فون نيومان لم يفكر كثيرًا في التفسير التطوُّري لنظرية الألعاب؛ فهو يرى أن الهدف من دراسة أي لعبةٍ هو بالضرورة تقديم حلٍّ عقلانيٍّ مقنِعٍ وواضح. ولا يتحقَّق هذا الشرط في فكرة توازن ناش؛ لأن معظم الألعاب يكون لها أكثر من توازن ناش واحد، ولا يوجد في الغالب أي سببٍ عقلانيٍّ تمامًا لاختيار توازنٍ معينٍ بدلًا من غيره. وكما أشار فون نيومان لاحقًا، فإن كل ما يخبرنا به معيار الرد الأمثل هو أن الخطوط العريضة لبعض الاستراتيجيات لا يمكن أن تكون الحل العقلاني لِلُعبةٍ ما، لكننا نريد أن نعرف أيٌّ من الخطوط العريضة لهذه الاستراتيجيات يمكن أن نعتبرها حلولًا.

(٤-١) أدنى الأقصى وأقصى الأدنى

حصرَ فون نيومان اهتمامه على ما يبدو في ألعاب المجموع الصفري الثنائية؛ لأنها من فئات الألعاب المعدودة التي يمكن أن تُحقِّق مفهومه عن فكرة الحل العقلاني الفريد. وسُمِّيت نظريته التي أثبتَ من خلالها هذه الحقيقة بنظرية «أدنى الأقصى»، لكنها تسميةٌ غير ملائمة؛ لأن الحل العقلاني في لعبةِ مجموعٍ صفريٍّ ثنائيةٍ يتأتَّى في الحقيقة من تطبيق كل لاعبٍ لقاعدة «أقصى الأدنى»؛ ويعني ذلك أنه يتعيَّن على اللاعب تحديد أسوأ المكاسب التي يمكن أن يحصل عليها في المتوسط من كل استراتيجية من استراتيجياته المختلطة، ثم يختار الاستراتيجية التي من شأنها زيادة مكسبه لو تحقَّق باستمرار هذا السيناريو الخاص بأسوأ الحالات.

على سبيل المثال، أسوأ سيناريو يمكن أن يحدث لأليس في لعبة مطابقة العملات المعدنية هو أن يخمِّن بوب الاستراتيجية المختلطة التي ستختارها. فإذا كانت هذه الاستراتيجية المختلطة تتطلَّب أن يختار بوب «صورة» لأكثر من نصف الوقت، فإن بوب سيختار «كتابة» دائمًا. وفي هذه الحالة، ستخسر أليس لأكثر من نصف الوقت وسيكون مكسبها من ثَمَّ سالبًا. وإذا كانت الاستراتيجية المختلطة لأليس تتطلَّب منها أن تختار «كتابة» لأكثر من نصف الوقت، فإن بوب سيختار «صورة» دائمًا، وسوف تخسر أيضًا لأكثر من نصف الوقت ويكون مكسبها أيضًا سالبًا؛ لذلك، فإن استراتيجية أقصى الأدنى لأليس أن تختار «صورة» و«كتابة» بنفس عدد المرات؛ مما يضمن لها أن يكون مجموع عوائدها في النهاية صفرًا.

لا ينجذب عمومًا إلى قاعدة أقصى الأدنى سوى الأشخاص المصابين بنزعة الارتياب؛ لأن هذه القاعدة تفترض أن العالم قد اختارك أنت على وجه التحديد لتكون خصمًا شخصيًّا له. ولكن، إذا كانت أليس تلعب أمام بوب في لعبة مجموعٍ صفري، فإن بوب هو العالم في هذه الحالة، ويكون العالم هو حقًّا خصمَها الشخصي في هذه الحالة الخاصة.

(٤-٢) لماذا أقصى الأدنى؟

من سخرية القدر أن تكون نظرية أدنى الأقصى لفون نيومان نتيجةً مباشرةً لحُجة ناش التي قدَّمها لإثبات أن كل الألعاب المتناهية يكون لها توازن ناش واحد على الأقل.

لتوضيح ذلك، ابدأ بتحديد حالةٍ من توازن ناش في لعبة مجموعٍ صفريٍّ ثنائية. أَطلِق على استراتيجية التوازن لأليس «أفقي»، واستراتيجية التوازن لبوب «رأسي». وستُسمَّى عوائد التوازن «قيمة أليس» و«قيمة بوب». على سبيل المثال، في لعبة مطابقة العملات المعدنية يمثل كلٌّ من الحركتين «أفقي» و«رأسي» الاستراتيجية المختلطة التي يختار فيها كلا اللاعبَين «صورة» و«كتابة» بنفس القدر من الاحتمالية؛ حيث تمثِّل «قيمة أليس» و«قيمة بوب» العائد الصفري الذي يحصل عليه كل لاعبٍ في المتوسط إذا لعب كلا اللاعبَين بهذه الطريقة.

لا يمكن لأليس أن تتأكَّد من حصولها على ما هو أكثر من «قيمة أليس»؛ لأن بوب من المحتمَل أن يتحرك دائمًا في اتجاهٍ «رأسي»، ويكون أفضل اختيار لها هو التحرك في اتجاهٍ «أفقي». وفي المقابل، تستطيع أليس أن تتأكَّد من الحصول على «قيمة أليس» على الأقل إذا تحرَّكت باتجاهٍ «أفقي»؛ لأن أفضل ما يستطيعه بوب هو أن يختار التحرُّك باتجاهٍ «رأسي»، وأفضل ما يستطيع بوب أن يقدمه لنفسه في لعبة مجموعٍ صفريٍّ كهذه سيكون مساويًا تمامًا لأسوأ ما يستطيع أن يفعله ضد أليس؛ وبناءً على ذلك، تكون «قيمة أليس» هي عائد أقصى الأدنى لأليس، والتحرُّك باتجاهٍ «أفقي» هو إحدى استراتيجياتها المُحقِّقة لقاعدة أقصى الأدنى.

بهذا المنطق نفسه، فإن «قيمة بوب» هي عائدُه المُحقِّق لقاعدة أقصى الأدنى، والتحرك باتجاهٍ «رأسي» هو إحدى استراتيجياته المُحقِّقة لهذه القاعدة. وإذا كان مجموع «قيمة أليس» و«قيمة بوب» يساوي صفرًا، فإنَّ ذلك يستتبع أيضًا أن يكون مجموع عوائد كلٍّ منهما المُحقِّقة لقاعدة أقصى الأدنى يساوي صفرًا؛ ومن ثَمَّ، لا يحصل أحد اللاعبَين على أكثر من عائده المُحقِّق لقاعدة أقصى الأدنى إلا في حال حصول اللاعب الآخر على قيمةٍ أقل من هذا العائد؛ لذلك، لا يستطيع أحدٌ تحسين قاعدة أقصى الأدنى عند لعب لعبة مجموعٍ صفريٍّ ثنائيةٍ ضد خصمٍ عقلاني.

يُسمَّى الدليل الذي قدَّمه فون نيومان لإثبات هذه الحقيقة نظرية «أدنى الأقصى»؛ لأن القول بأن مجموع عوائد أليس وبوب في حال تحقُّق قاعدة أقصى الأدنى يساوي صفرًا؛ يكافئ القول بأن عائد أليس في حال تحقُّق قاعدة أقصى الأدنى مساوٍ لعائدها في حال تحقُّق قاعدة أدنى الأقصى. لكن، يجب عدم الوقوع في الخطأ الشائع بالاعتقاد أن فون نيومان قد أوصى لهذه الأسباب باستخدام قاعدة أدنى الأقصى؛ فلا أحدَ يريد أن يحدد «أفضل» عائدٍ يمكن الحصول عليه في المتوسط من كل الاستراتيجيات المختلطة، ثم يختار الاستراتيجية التي من شأنها أن «تقلل» عائده لو تحقَّق دائمًا سيناريو أفضل الحالات.

(٥) إيجاد الاستراتيجيات المُحقِّقة لقاعدة أقصى الأدنى

عندما نعيد النظر الآن إلى اهتمام علماء الرياضيات بنظرية أدنى الأقصى، نجد أنه من المؤسف أنهم سارعوا إلى الاهتمام بها؛ فدراسة ألعاب الكرِّ والفرِّ التي يسعى فيها طيَّار إلى الفرار من قذيفةٍ متقفِّيةٍ للحرارة هي بالتأكيد تمرين مفيد في نظرية التحكم، لكن هذا العمل يؤكِّد بطبيعة الحال على إجحاف النقاد الذين يركِّزون على فكرة أن خبراء نظرية الألعاب هم رجالٌ نصفُ آليين مختلين عقليًّا. ولا أساسَ كذلك للزعم الشائع بإمكانية تحسين نظرية الألعاب بالاكتشاف الغامض الذي يقضي بأن نظرية أدنى الأقصى تكون صحيحة فقط في بعض الألعاب اللامتناهية إذا كنا على استعدادٍ لرفض بديهية الاختيار؛ ومن ثَمَّ، كان من الممكن أن تَلقى نظرية الألعاب قبولًا أكثر في سنواتها الأولى لو أن المتحمِّسين لم يُضْفوا عليها هذا الكم من الصعوبة.

(٥-١) لعبة الصخرة والمقص والورقة

يعرف كل الأطفال هذه اللعبة. يقوم كلٌّ من أليس وبوب بإشاراتٍ باليد تُمثل واحدةً من استراتيجياتهما الثلاث الخالصة: «صخرة»، «مقص»، «ورقة». ويُحدَّد الفائز وفقًا للقواعد التالية:

«صخرة»	تُثلِّم	«مقص»
«مقص»	يقصُّ	«ورقة»
«ورقة»	تغطي	«صخرة»

إذا قام كلا اللاعبَيْن بالإشارة نفسها، فالنتيجة إذن هي التعادل، وهو ما يعتبره اللاعبان مكافئًا لليانصيب؛ حيث يتساوى في هذه الحالة احتمال الفوز أو الخسارة؛ لذلك، فإن هذه اللعبة هي لعبة مجموعٍ صفريٍّ.

من الواضح أن الحل المنطقي هو أن يلجأ كل لاعب إلى استخدام استراتيجياته الخالصة الثلاث بنفس العدد من المرات؛ وبذلك، يضمن كل لاعب الحصول على عائدٍ مجموعُه صفر، وهو ما يحقِّق قاعدة أقصى الأدنى لكلٍّ منهما. وتكمن الفكرة الرئيسية لهذه اللعبة في أن على اللاعب أن يعمل جاهدًا لإيجاد طريقة تطوُّرية تركِّز على هذا الحل.

على سبيل المثال، تنتهي ديناميكية الرد الأمثل في شكل ٢-٢ بالدوران بطريقة تستبعد على نحوٍ دوريٍّ تقريبًا كلَّ استراتيجيةٍ على التوالي. ويمكن للمرء أن يرفض هذه النتيجة من باب الفضول لو لم يكن لحقيقةِ أنَّ الامتزاج السكاني لثلاثة أنواع من السلمندر في أمريكا الوسطى منخرطة في لعبة تشبه لعبة «صخرة ومقص وورقة»؛ تنتهي به الحال في دورةٍ مماثلة؛ بحيث تظل مجموعةٌ واحدةٌ دائمًا مهدَّدةً بالانقراض.

(٥-٢) لعبة البطاقات لأونيل

استخدم باري أونيل هذه اللعبة في أول تجربةٍ معمليةٍ قدَّمت دعمًا إيجابيًّا لقاعدة أقصى الأدنى. كانت التجارب السابقة مُثبِّطة، ووجَّه عالِم النفس المشهور، ويليام إستس، نقدًا لاذعًا إلى هذا المبدأ على وجه التحديد عندما قدَّم تقريرًا عن اختباره لنظرية فون نيومان: «لن تستطيع نظرية الألعاب أن تحل محل نظريةٍ سلوكيةٍ مبنيةٍ على التجربة عندما نريد أن نتنبَّأ بما سيفعله الناس فعليًّا في مواقف تنافسية.»

لكن في التجربة التي بنى إستس على أساسها تعليقاته الرافضة، كان ثَمَّةَ شخصان فقط وُصِفا بأنهما مدرَّبان جيدًا على تعزيز التجارب التعليمية التي كان إستس يستخدمها في الدفاع عن نظرية «تطابق الاحتمالات» (التي يُرفض تصديقُها الآن). ولم يكن أيٌّ من الشخصين يعلم أنه يلعب لعبة أمام الآخر. وحتى إن كانا يَعلمان أنهما يلعبان لعبة، فإن نظرية أدنى الأقصى كانت غير ذات صلةٍ بِوَرطتهما؛ حيث إنهما لم يعلما سابقًا بعوائد اللعبة؛ فقد كانا يلعبان بمعلوماتٍ ناقصة، وهو موقف لا تنطبق عليه نظرية أدنى الأقصى لفون نيومان.

عندما صمَّم أونيل تجربة خالية من هذه الأخطاء، كان يريد أن يتحكَّم في احتمال أن تكون لدى هذين الشخصين توجُّهات مختلفة حيال الإقدام على المخاطر. على سبيل المثال، لن تكون لعبة «صخرة ومقص وورقة» ذات مجموعٍ صفريٍّ لو أن أليس وبوب لم يفكِّرا في أن التعادل يعني أن احتمالات الفوز أو الخسارة متساوية؛ لذلك، أجرى أونيل تجربةً على لعبة تحتمل الفوز أو الخسارة فقط، لكن ما زال فيها حبكة كافية لجعْل الحل غير واضح.

في لعبة البطاقات، تكون لدى كلٍّ من أليس وبوب بطاقة عليها الرقم «واحد» ومجموعة من بطاقات الصور. يُظهِر كلٌّ منهما بطاقة في نفس الوقت، فتفوز أليس إذا كانت النتيجة «واحد» لكلٍّ منهما، أو في حال عدم تطابق بطاقات الصور. وفيما عدا ذلك يفوز بوب.

لإيجاد استراتيجية أليس المحقِّقة لقاعدة أقصى الأدنى، فإننا نسأل أيٌّ من استراتيجياتها المختلطة تجعل بوب غير متحيِّزٍ تجاه أيٍّ من استراتيجياته الخالصة؟ والإجابة عن هذا السؤال أن على أليس أن تلعب كل بطاقة صورة بتكرارٍ متساوٍ، و«واحد» بمعدل الضِّعف. وعلى بوب فعل الأمر نفسه؛ ومن ثَمَّ، فالنتيجة أن أليس سوف تكسب خُمسَي الوقت، وبوب سوف يكسب ثلاثة أخماس الوقت.

(٥-٣) المبارزة

لعبة المبارزة هي المثال الأقرب إلى تطبيقٍ عسكري. تتحرك أليس وبوب كلٌّ منهما تجاه الآخر مسلحًا بسلاحٍ به رصاصة واحدة فقط. وكلما اقتربا، تزيد احتمالية أن يصيب أحدهما الآخر. ويكون العائد لكل لاعب هو احتمال النجاة.

إلى أي مدًى يفترض أن تقترب أليس من بوب قبل إطلاق النار؟ إنَّ السؤال يتعلق حرفيًّا بمسألة الحياة والموت؛ لأنها إذا أطلقت النار ولم تصبه، فسيتمكَّن بوب من التقدُّم نحوها مباشرةً وتكون العواقب وخيمة لأليس. بما أن شخصًا ما سيموت في كل نتيجةٍ محتمَلةٍ للُّعبة، فسيكون مجموع العوائد دائمًا يساوي واحدًا.

ثَمَّةَ نتيجة واحدة واضحة يمكننا التوصُّل إليها هنا؛ وهي أنه لا يمكن أن يتحقَّق توازن ناش بأن يخطط لاعب واحد أن يطلق النار قبل الآخر؛ لأن الرد الأمثل للاعب الآخر الذي يخطط لإطلاق النار أولًا سيكون الانتظارَ فترةً أطول. لكن ما مدى قرب كلٍّ منهما من الآخر عند إطلاق النار في آنٍ واحد؟

تُقدم نظرية أدنى الأقصى إجابةً مباشرة عن هذا السؤال؛ فالمبارزة لعبة محصلتها هي مجموع الوحدات وليس المجموع الصفري، لكن نظرية أدنى الأقصى ما زالت مطبَّقة (شريطة أن يكون مجموع العوائد مساويًا لواحد عندما يطلق اللاعبان النار في آنٍ واحد). والفرق الوحيد هو أن مجموع عوائد اللاعبَيْن المحقِّقة لقاعدة أقصى الأدنى يساوي الآن واحدًا بدلًا من صفر؛ لذلك، إذا كانت أليس ستطلق دائمًا النار ضِعف عدد المرات التي سيطلق فيها بوب النار، فإنهما سيطلقان النار من المسافة التي تجعل أليس تصيب بوب ثُلثي الوقت وبوب يصيب أليس ثُلث الوقت.