الذكاء الاصطناعي النافع على نحو مثبت | ذكاء اصطناعي متوافق مع البشر: حتى لا تفرض الآلات سيطرتها على العالم

(١) الضمانات الرياضية

سنرغب، في النهاية، في إثبات مُبرهناتٍ هدفها إيجاد طريقةٍ معيَّنة لتصميم نُظم الذكاء الاصطناعي تضمن أن تلك النُّظُم ستكون نافعةً للبشر. إن المُبرهنة هي فقط اسم مُنمَّق للتأكيد، المُحدَّد على نحوٍ دقيق بالقدر الكافي بحيث يمكن التحقق من صحته في أي موقفٍ مُعين. ربما المبرهنة الأشهر هي مبرهنة فيرما الأخيرة، التي خمَّنها الرياضي الفرنسي بيير دي فيرما في عام ١٦٣٧ وأثبتها في النهاية أندرو وايلز في عام ١٩٩٤ بعد ٣٥٧ عامًا من المحاولات (التي لم يقُم وايلز بها جميعًا).¹ يُمكن كتابة المبرهنة في سطرٍ واحد، لكن الإثبات يكون في أكثر من مائة صفحة من الرياضيات المعقدة.

تنطلق البراهين من «مُسلمات» التي هي تأكيدات صحتها ببساطة مفترضة. في الغالب، المسلمات هي مجرَّد تعريفات، مثل تعريفات الأعداد الصحيحة وعملية الجمع والأس المطلوب من أجل مبرهنة فيرما. ينطلق البرهان من المسلمات عبر خطوات لا تقبل الجدل منطقيًّا، مع إضافة تأكيداتٍ جديدة حتى يُجرى إثبات المبرهنة نفسها نتيجة لإحدى الخطوات.

إليكم مبرهنة واضحة إلى حدٍّ ما تنتُج على نحوٍ شبه فوري من تعريفات الأعداد الصحيحة وعملية الجمع، وهي: ١ + ٢ = ٢ + ١. دعنا نُطلِق عليها «مبرهنة راسل». إنها ليست بمثالٍ جيد على الاكتشاف. على الجانب الآخر، تبدو مبرهنة فيرما الأخيرة شيئًا جديدًا بالكامل؛ أي اكتشاف شيء غير معروف من قبل. لكن الاختلاف هو مجرد اختلاف في الدرجة. إن صحة مُبرهنتَي راسل وفيرما «متضمنة بالفعل في المسلمات». إن البراهين تجعل فقط ما هو ضمني بالفعل صريحًا. إنها يُمكن أن تكون طويلة أو قصيرة، لكنها لا تُضيف شيئًا جديدًا. إن المبرهنة صحيحة مثل الافتراضات المتضمنة فيها.

هذا جيد فيما يتعلَّق بالرياضيات؛ لأن الرياضيات تتعلَّق بعناصر مجرَّدة نعرفُها «نحن»؛ الأعداد والمجموعات وهكذا. إن المسلَّمات صحيحة لأننا ندَّعي هذا. على الجانب الآخر، إن أردت إثبات شيءٍ عن العالم الواقعي — على سبيل المثال، إن نظم الذكاء الاصطناعي المُصممة على «هذا» النحو لن تقتلك عمدًا — فيجب أن تكون مُسلَّماتك صحيحة في العالم الواقعي. إن لم تكن صحيحة، فقد أثبتَّ شيئًا عن عالَمٍ خيالي.

إن العلوم والهندسة لهما تقليد طويل ومحترم فيما يتعلق بإثبات نتائج عن العوالم الخيالية. ففي الهندسة الإنشائية، على سبيل المثال، ربما يجدُ المرء تحليلًا رياضيًّا يبدأ بالآتي: «دعنا نفترض أن «أب» عارضة جاسئة …» إن كلمة «جاسئة» هنا لا تعني «مصنوعة من شيء صلب مثل الفولاذ»، بل تعني «قوية على نحوٍ لا نهائي»، بحيث لا تنثني على الإطلاق. إن العوارض الجاسئة غير موجودة، لذا، فإن هذا عالم خيالي. الفكرة هنا هي معرفة إلى أي مدًى يُمكن أن يبتعِد المرء عن العالم الواقعي ولا يزال يحصل على نتائج مفيدة. على سبيل المثال، إن سمح افتراض العارضة الجاسئة للمُهندس بحساب القوى في إنشاء يتضمَّن العارضة، وكانت تلك القوى صغيرةً بالقدر الكافي لثني عارضة فولاذية حقيقية فقط بقدرٍ ضئيل، إذن، فالمهندس يُمكن أن يكون على ثقةٍ إلى حدٍّ كبير بأن التحليل سينتقل من العالم الخيالي إلى العالم الواقعي.

المهندس الجيد يعرف متى قد يفشل هذا الانتقال؛ على سبيل المثال، إذا كانت العارضة تتعرَّض للانضغاط، مع وجود قوًى كبيرة تضغط عليها من كل جانب، إذن، فحتى القدر الضئيل من الانثناء قد يُؤدِّي لقوى جانبية أكبر تُسبِّب مزيدًا من الانثناء، وهكذا، مما يُؤدِّي إلى فشلٍ كارثي. في هذه الحالة، يُعاد التحليل كما يلي: «دعنا نفترض أن «أب» عارضة مرنة ذات جساءة K …» هذا لا يزال عالمًا خياليًّا، بالطبع؛ لأن العوارض الحقيقية ليست لها جساءة مُنتظمة؛ بدلًا من ذلك، إن بها عيوبًا دقيقة يُمكن أن تؤدي إلى تكوين شروخ إن تعرَّضت العارضة للانثناء المُتكرِّر. إن عملية حذف الافتراضات غير الواقعية تستمرُّ حتى يُصبح المهندس واثقًا إلى حدٍّ ما من أن الافتراضات الباقية صحيحة بالقدر الكافي في العالم الواقعي. وبعد ذلك، يُمكن اختبار النظام الهندسي في العالم الواقعي، لكن نتائج الاختبار هي كالتالي. إنها لن تُثبت أن النظام نفسه سيعمل في ظروفٍ أخرى أو أن تلك النسخ الأخرى من النظام ستعمل بنفس الطريقة التي يعمل بها النظام الأصلي.

أحد الأمثلة الكلاسيكية على فشل الافتراضات في علوم الكمبيوتر مصدرُه الأمن الإلكتروني. في هذا المجال، قدر كبير من التحليل الرياضي يُشير إلى أنَّ بروتوكولات رقمية مُعينة «آمنة على نحوٍ مثبت»؛ على سبيل المثال، عندما تكتب كلمة مرور في تطبيقٍ خاص بالويب، سترغب في التأكُّد من أنها مُشفَّرة قبل إرسالها حتى لا يستطيع أي شخصٍ يتلصَّص على الشبكة أن يقرأها. تكون تلك النُّظُم الرقمية في الغالب آمنةً على نحوٍ مُثبت، لكنها تكون معرَّضة للهجوم في الواقع. إن الافتراض الخاطئ هنا هو أن تلك عملية رقمية. إنها ليست كذلك. إنها تعمل في العالم المادي الواقعي. وبالاستماع إلى صوت لوحة مفاتيحك أو قياس الجهد في السلك الكهربي الذي يُمد الكمبيوتر المكتبي الخاص بك بالطاقة، يُمكن أن «يسمع» المهاجم كلمة مرورك أو يراقب العمليات الحسابية الخاصة بالتشفير وفكِّ التشفير التي تحدث أثناء التعامُل معها. إن المُهتمين بالأمن الإلكتروني الآن يتعاملون مع تلك الهجمات التي تُسمَّى بهجمات القنوات الجانبية؛ على سبيل المثال، بكتابة شفرة تشفير تُنتج نفس تذبذبات الجهد الكهربي بصرف النظر عن الرسالة التي يجري تشفيرها.

دعنا نُلقي نظرةً على نوعية المبرهنة التي سنرغب في إثباتها في النهاية فيما يتعلَّق بالآلات النافعة للبشر. يُمكن لإحداها أن تكون على النحو التالي:

دعنا نفترض أن آلةً لها المكونات أ وب وج المرتبطة ببعضها على النحو المُوضَّح وببيئة العمل على النحو المحدَّد، مع وجود خوارزميات تعلُّم داخلية ت_أ وت_ب وت_ﺟ تحقق على نحوٍ أمثل مُكافآت استجابة داخلية س_أ وس_ب وس_ﺟ معرَّفة على النحو الموضح، إلى جانب [بضعة شروط أخرى] … حينها، وباحتماليةٍ عالية جدًّا، سيقترب بشدة سلوك الآلة في القيمة [بالنسبة إلى البشر] من أفضل سلوك مُمكن يُمكن تحقيقه في آلة لها نفس الإمكانات المادية والحوسبية.

إن النقطة الأساسية هنا هي أن تلك المبرهنة يجب أن تظلَّ صحيحة «بصرف النظر عن مدى الذكاء الذي ستكون عليه المكونات»؛ أي لن يحدث مُطلقًا أي خلل وستظلُّ الآلة دائمًا نافعة للبشر.

هناك ثلاث نقاط أخرى حريٌّ بنا ذكرها فيما يتعلَّق بهذا النوع من المُبرهنات. أولًا: نحن ليس بإمكاننا إثبات أن الآلة تنتج سلوكًا أمثل (أو حتى يقترب من هذا) لأن هذا بالتأكيد شِبه مُستحيل من الناحية الحوسبية. على سبيل المثال، قد نرغب في أن تُمارس الآلة لعبة جو على النحو الأمثل، لكن هناك ما يدعو إلى الاعتقاد بأن هذا لا يُمكن تحقيقه في أي قدرٍ ممكن من الوقت وعلى أي آلةٍ يُمكن إيجادُها على أرض الواقع. السلوك الأمثل في العالم الواقعي حتى تقل قابلية تحقيقه. ومن ثم، المبرهنة تقول «أفضل سلوك ممكن» وليس «السلوك الأمثل».

ثانيًا: إننا نقول «باحتماليةٍ عالية جدًّا … سيقترب بشدة» لأن هذا عادةً أفضل ما يُمكن تحقيقه فيما يتعلَّق بآلات تتعلَّم. على سبيل المثال، إذا كانت الآلة تتعلم لعب الروليت من أجلنا، ووقفت الكرة على الصفر ٤٠ مرة متتالية، قد تُقرر الآلة على نحوٍ منطقي أن هناك تلاعبًا في طاولة اللعب وتُراهن بناءً على ذلك. لكن هذا «يُمكن» أن يحدُث بالصدفة، لذا، هناك دائمًا احتمال بسيط — ربما بسيط للغاية — للتعرُّض للتضليل بسبب الأحداث العرضية. وأخيرًا، أمامنا الكثير حتى نكون قادرين على إثبات مثل هذه المُبرهنة بالنسبة إلى آلاتٍ ذكية بالفعل تعمل في العالم الواقعي!

ثالثًا: هناك أيضًا حالات مُناظرة لهجمات القنوات الجانبية في الذكاء الاصطناعي. على سبيل المثال، تبدأ المبرهنة بالآتي: «دعنا نفترض أن آلةً لها المكونات أ وب وج المرتبطة ببعضها على النحو المُوضَّح …». هذا مُعتاد في كل مبرهنات الصحة في علوم الكمبيوتر: إنها تبدأ بوصفٍ للبرنامج الذي يجري إثبات صحَّته. في مجال الذكاء الاصطناعي، نحن عادةً ما نُميِّز بين «الكيان» (البرنامج الذي يقوم بعملية اتخاذ القرار) و«البيئة» (التي يعمل في إطارها الكيان). وبما أننا نحن مَن نُصمِّم الكيان، فيبدو من المعقول افتراض أن له البنية التي نُعطيها إياه. وحتى نكون في أمانٍ تام، يُمكننا إثبات أن عمليات التعلُّم الخاصة به يُمكنها تعديل برنامجه فقط بطُرُق مُعيَّنة محدودة لا يمكنها إحداث مشكلات. هل هذا كافٍ؟ لا. فكما هو الحال مع هجمات القنوات الجانبية، إن الافتراض بأن البرنامج يعمل داخل نظام رقمي غير صحيح. وحتى لو لم تكن خوارزمية التعلُّم قادرةً أصلًا على تعديل شفرتها بطرُقٍ رقمية، فقد تتعلم، مع ذلك، كيفية إقناع البشر بإخضاعها ﻟ «جراحة دماغية»؛ لإنهاء التمييز بين الكيان والبيئة وتغيير الشفرة بطرُقٍ مادية.²

على عكس الاستدلال المنطقي للمهندس الإنشائي فيما يتعلق بالعوارض الجاسئة، إن لدَينا خبرة قليلة جدًّا فيما يتعلق بالافتراضات التي ستُعَد في النهاية الأساسَ للمبرهنات الخاصة بالذكاء الاصطناعي النافع على نحوٍ مُثبت. في هذا الفصل، على سبيل المثال، إننا بالأساس سنفترض وجود بشَر عقلانيِّين. هذا يُشبه قليلًا افتراض وجود عوارض جاسئة، لأنه لا يُوجَد بشَر عقلانيون على نحوٍ تامٍّ في الواقع. (لكن ربما يكون الأمر أكثر سوءًا بشدة لأنَّ البشر حتى ليسوا قريبين من العقلانية بأي نحو.) يبدو أن المُبرهنات التي يُمكننا إثباتها توفر بعض الرؤى، والرؤى ستصمد أمام إدخال درجةٍ مُعينة من العشوائية في السلوك البشري، ولكن من غير الواضح حتى الآن معرفة ما سيحدُث عندما نتأمَّل بعض تعقيدات البشر الحقيقيِّين.

لذا، سيكون علينا أن نكون حذِرين للغاية عند فحص افتراضاتنا. عندما ينجح برهان خاص بالأمان، فنحن بحاجةٍ إلى التأكد من أنه ليس كذلك بسبب تقديمنا لافتراضاتٍ قوية على نحوٍ غير واقعي أو لأن تعريف الأمان ضعيف للغاية. عندما يفشل برهان خاص بالأمان، نحتاج إلى مقاومة إغراء تقوية الافتراضات لجعل البرهان ينجح؛ على سبيل المثال، بإضافة الافتراض الذي ينص على ضرورة بقاء شفرة البرنامج ثابتة. بدلًا من ذلك، نحتاج لجعل تصميم نظام الذكاء الاصطناعي أكثر إحكامًا؛ على سبيل المثال، بضمان عدم امتلاكه دافعًا لتعديل أجزاء حسَّاسة من شفرتها.

هناك بعض الافتراضات التي أُسمِّيها افتراضات «وإلا لن يكون أمامنا فعل أي شيء». هذا يعني أن تلك الافتراضات إذا كانت خاطئة، فقد انتهى الأمر ولن يكون أمامنا فعل أيِّ شيء. على سبيل المثال، من المعقول افتراض أن الكون يعمل وفق قوانين ثابتة وقابلة للإدراك بعض الشيء. إن لم تكن هذه هي الحال، فلن يكون لدَينا ضمانة على أن عمليات التعلم — حتى المُعقَّدة منها للغاية — ستنجح على الإطلاق. هناك افتراض آخر أساسي وهو أن البشر يهتمُّون بما يحدث؛ وإن لم يكن الأمر كذلك، فليس للذكاء الاصطناعي النافع على نحوٍ مُثبت أي هدف لأن كلمة «نافع» لا معنى لها. هنا، «الاهتمام» يعني امتلاك تفضيلاتٍ مُستقرَّة بنحوٍ أو بآخر وشبه متَّسقة بشأن المستقبل. في الفصل التالي، سأستعرض تبعات «مرونة» التفضيلات البشرية، الأمر الذي يُمثِّل تحدِّيًا فلسفيًّا مهمًّا لفكرة الذكاء الاصطناعي النافع على نحوٍ مُثبت.

سأُركز الآن على أبسط حالة: العالم الذي به إنسان واحد وروبوت واحد. تُساعدنا تلك الحالة في تقديم الأفكار الأساسية، لكنها أيضًا مفيدة في حدِّ ذاتها؛ فيُمكنك النظر إلى هذا الإنسان باعتباره ممثلًا لكل البشر والروبوت باعتباره ممثلًا لكل الآلات. تنشأ تعقيدات إضافية عند تأمُّل الحالات التي يُوجَد فيها بشر عديدون وروبوتات عديدة.

(٢) تعلم التفضيلات من السلوك

يتعرف علماء الاقتصاد على التفضيلات من المبحوثين البشريِّين بإعطائهم اختيارات.³ يُستخدم هذا الأسلوب على نحوٍ شائع في نُظُم التجارة الإلكترونية التفاعُلية وتصميم المنتجات والتسويق. على سبيل المثال، بتقديم اختيارات للمبحوثين الخاضعين للاختبار فيما يتعلَّق بالسيارات ذات ألوان الطلاء المُختلفة وترتيبات الجلوس وأحجام صناديق السيارة وسعات البطاريات وحاملات الأكواب وهكذا، سيعرف مُصمِّم السيارات مدى اهتمام الناس بالسمات المختلفة للسيارات ومدى استعدادهم للدفع من أجل الحصول عليها. هناك استخدام آخر مُهمٌّ وهو في المجال الطبي، حيث قد يرغب اختصاصيُّ الأورام الذي يتدبَّر احتمالية قيامه ببتر طرف أحد المرضى في تقييم تفضيلات هذا المريض فيما بين القدرة على الحركة ومعدَّل العمر المتوقَّع. وبالطبع، أصحاب مطاعم البيتزا يريدون معرفة المبلغ الإضافي الذي قد يرغب الشخص في دفعه للحصول على بيتزا بالسجق بدلًا من بيتزا الأناناس.

إن عملية استخلاص التفضيلات هذه تُركِّز بالأساس على اختياراتٍ فردية تتمُّ بين أشياء قيمتها من المفترض أن تكون ظاهرة على الفور للمبحوث. ليس من الواضح كيفية بسط هذا للتفضيلات الخاصَّة بالحيوات المستقبلية. من أجل هذا، نحن (والآلات) نحتاج للتعلُّم من ملاحظة السلوك مع مرور الوقت؛ السلوك الذي يتضمَّن اختياراتٍ مُتعدِّدة ونتائج غير مؤكَّدة.

في بداية عام ١٩٩٧، انخرطتُ في نقاشات مع زميليَّ مايكل ديكنسون وبوب فول فيما يتعلق بالطرق التي قد نكون من خلالها قادرين على تطبيق أفكار من تعلم الآلة لفهم السلوك الحركي للحيوانات. درس مايكل بتفصيلٍ كبيرٍ حركات الأجنحة الخاصة بذباب الفاكهة. وكان بوب مغرمًا على نحوٍ خاصٍّ بالحشرات الزاحفة وقد بنى آلة ركض صغيرة للصراصير ليعرف كيف تتغير مشيتها مع تغيُّر السرعة. ظننَّا أنه قد يكون من الممكن استخدام التعلم المُعزَّز لتدريب حشرة آلية أو محاكية لاستنساخ تلك السلوكيات المُعقَّدة. كانت المشكلة التي واجهناها هي أننا لم نكن نعرف إشارة المكافأة التي يجب استخدامها. ما الذي كان الذباب والصراصير يسعى إلى تحقيقه على النحو الأمثل؟ فبدون تلك المعلومة، لا يُمكننا تطبيق التعلم المُعزَّز لتدريب الحشرة الافتراضية، ولهذا، توقفنا.

في أحد الأيام، كنت أسير في الطريق الذي يؤدي من منزلنا في بيركلي إلى السوبرماركت المحلي. كان الطريق منحدرًا، ولاحظت، مثلما أنا متأكد أن معظم الناس فعلوا، أن الانحدار أحدث تغيرًا بسيطًا في طريقة المشي الخاصة بي. علاوة على ذلك، الرصف غير المستوي الناتج عن عقودٍ من الزلازل الصغيرة أحدث تغيُّراتٍ إضافية في مِشيتي، بما في ذلك رفع قدميَّ لأعلى قليلًا ووضعهما على نحوٍ أقل رسوخًا بسبب مُستوى الأرض غير القابل للتوقُّع. وبينما أخذتُ أتأمَّل تلك الملاحظات العادية، أدركت أننا توصَّلنا لما نُريد على نحوٍ عكسي. ففي حين أن التعلُّم المعزَّز يُولِّد سُلوكًا من المكافآت، فنحن نرغب في واقع الأمر في العكس؛ أي تعلم المُكافآت في ظلِّ وجود السلوك. لقد كان لدَينا بالفعل السلوك، الذي أنتجه الذباب والصراصير؛ كنا نريد إشارة المكافأة المُحدَّدة التي يجري السعي إلى تحقيقها على النحو الأمثل من قبل هذا السلوك. بعبارة أخرى، كنا نحتاج إلى الخوارزميات الخاصة بالتعلُّم المُعزَّز «العكسي».⁴ (لم أكن أعلم في ذلك الوقت أن مسألةً مُماثلة قد دُرست ربما تحت الاسم الأقل سهولة «التقدير البنيوي لعمليات اتخاذ القرار الخاصة بماركوف»، وهو مجال كان الرائد فيه العالم الحائز على جائزة نوبل توم سارجنت في أواخر سبعينيات القرن الماضي.)⁵ إن تلك الخوارزميات ستُصبح قادرةً ليس فقط على تفسير سلوك الحيوان ولكن أيضًا على التنبؤ بسلوكه في ظروف جديدة. على سبيل المثال، كيف سيجري الصرصار على آلة ركض غير مستوية تنحدر جانبيًّا؟

إن احتمال الوصول لإجابات على تلك الأسئلة الجوهرية كان مُثيرًا جدًّا على نحو يصعب تحمله، ولكن رغم ذلك، أخذ تطوير أول خوارزميات خاصة بالتعلم المُعزز العكسي بعض الوقت.⁶ لقد جرى اقتراح العديد من الصيغ والخوارزميات المختلفة للتعلُّم المُعزز العكسي منذ ذلك الوقت. ويُوجَد ضمانات منهجية لعمل الخوارزميات، بمعنى أنها يُمكنها اكتساب معلوماتٍ كافية عن تفضيلات أي كيان حتى تكون قادرة على التصرف على نحوٍ ناجح مثل الكيان الذي تُلاحظه.⁷

ربما أسهل طريقة لفهم التعلُّم المُعزَّز العكسي هي الآتية: يبدأ المُلاحِظ ببعض التقدير الغامض لدالة المكافأة الحقيقية ثم يُنقِّح هذا التقدير جاعلًا إيَّاه أكثر دقة، مع ازدياد قدر السلوك الملاحظ. أو، باللغة البايزية:⁸ البدء باحتمال قبلي فيما يتعلَّق بدوالِّ المكافأة الممكنة، ثم تحديث توزيع الاحتمال الخاص بدوالِّ المكافأة مع ظهور الأدلة.^(ﺟ) على سبيل المثال، دعنا نفترض أن الروبوت روبي يُراقب الإنسانة هاريت ويتساءل عن مدى تفضيلها لمقاعد الممر على المقاعد المجاورة للنوافذ. مبدئيًّا، هو غير مُتيقِّن على نحوٍ تامٍّ من هذا الأمر. ومن الناحية المفاهيمية، قد يسير التفكير المنطقي لرُوبي على هذا النحو: «إن كانت هاريت تهتمُّ حقًّا بمقاعد الممر، لكانت ستنظر إلى مخطط المقاعد لترى إن كان أحدها مُتاحًا بدلًا من أن تكتفي بقبول المقعد المجاور للنافذة الذي حدَّدته لها شركة الطيران، لكنها لم تفعل ذلك، رغم أنها على الأرجح لاحظت أنه مقعد مجاور لنافذة ولم تكن على الأرجح في عجلةٍ من أمرها؛ لذا، من المُحتمل الآن على نحوٍ كبير أن مقاعد الممر والمقاعد المجاورة للنوافذ سيان بالنسبة إليها أو أنها حتى تُفضِّل المقاعد المجاورة للنوافذ».

إنَّ أبرز مثال على التعلُّم المعزَّز العكسي في الممارسة العملية هو عمل زميلي بيتر أبيل المتعلق بتعلم كيفية القيام باستعراضات جوية بالطائرات المروحية.⁹ إن الطيارين البشريِّين الخبراء يُمكنهم جعل نماذج الطائرات المروحية تقوم بأشياء مُذهلة؛ الحركات الدائرية واللولبية وحركات التأرجح وغير ذلك. إن محاولة استنساخ ما «يفعله» الطيار البشري اتضح أنها ليست ناجحة تمامًا لأنَّ الأحوال لا يُمكن استنساخها على نحوٍ تام؛ يمكن أن يؤدي تكرار نفس تسلسُلات التحكم في ظروف مختلفة إلى كارثة. بدلًا من ذلك، تتعلم الخوارزمية ما «يريده» الطيار البشري، في شكل قيود مسار يُمكنها تنفيذها. يُنتج هذا النهج بالفعل نتائج أفضل حتى من نتائج الطيار البشري الخبير؛ لأن الطيار البشري ردود أفعاله أبطأ ويرتكب دائمًا أخطاءً صغيرة ويُصححها.

(٣) الألعاب التعاونية

يُعَد التعلُّم المُعزَّز العكسي بالفعل أداةً مُهمة لبناء نظُم ذكاء اصطناعي فعالة، لكنه يتَّخذ بعض الافتراضات البسيطة. يتمثَّل الافتراض الأول في أنَّ الروبوت «سيتبنَّى» دالة المكافأة بمجرَّد تعلُّمها بملاحظة الإنسان؛ بحيث يُمكنه أداء نفس المهمة. هذا جيد بالنسبة إلى قيادة السيارات أو الطائرات المروحية، ولكنه ليس جيدًا بالنسبة لشُرب فنجان قهوة: يجب أن يتعلَّم الروبوت الذي يلاحظ روتيني الصباحي أنني (أحيانًا) أرغب في تناول القهوة، ولا يجب أن يتعلَّم الرغبة في تناول القهوة نفسها. إن إصلاح هذا الأمر سهل؛ علينا أن نضمن ببساطة أن الروبوت سيربط التفضيلات بالإنسان وليس بنفسه.

الافتراض البسيط الثاني في التعلُّم المُعزَّز العكسي هو أن الروبوت يلاحظ إنسانًا يحلُّ مشكلةً خاصة باتخاذ القرار متعلِّقة بكيانٍ واحد. على سبيل المثال، دعنا نفترض أن الروبوت في كلية طب، ويتعلَّم كيف يُصبح جراحًا بملاحظة خبير بشري. تفترض خوارزميات التعلُّم المُعزَّز العكسي أن الخبير البشري يجري العملية بالطريقة المُثلى المعتادة، كما لو أن الروبوت لم يكن هناك. ولكن هذا ليس ما سيحدُث؛ الجراح البشري لديه دافع لجعل الروبوت (شأنه شأن أي طالب طب آخر) يتعلم بسرعة وعلى نحوٍ جيد، ولذا سيعدل سلوكه على نحوٍ كبير. فقد يشرح ما يقوم به أثناء عمله، وقد يُشير إلى الأخطاء التي يجب تجنُّبها، مثل جعل الشقِّ الجراحي عميقًا جدًّا أو الغُرَز ضيقة للغاية، وقد يصف خطط الطوارئ في حالة حدوث أي شيء طارئ أثناء الجراحة. ليس لأيٍّ من تلك السُّلوكيات معنًى أثناء إجراء العملية بمعزلٍ عن هذا، لذا، فإن خوارزميات التعلُّم المُعزَّز العكسي لن تكون قادرةً على معرفة التفضيلات المُتضمنة فيها. لهذا، سنحتاج إلى تعميم التعلُّم المعزَّز العكسي من الوضع ذي الكيان الواحد إلى الوضع ذي الكيانات المُتعددة؛ أي سنحتاج إلى تطوير خوارزميات تعلم تعمل عندما يكون الإنسان الروبوت جزءًا من نفس البيئة ويتفاعل كل منهما مع الآخر.

بوجود إنسانٍ واحد وروبوت واحد في البيئة نفسها، نكون في مجال نظرية الألعاب؛ تمامًا كما في مباراة ضربات الجزاء بين أليس وبوب المعروض في الفصل الثاني. إننا نفترض، في تلك النسخة الأولى من النظرية، أن الإنسان له تفضيلات ويتصرَّف بناءً على تلك التفضيلات. لا يعرف الروبوت التفضيلات التي لدى الإنسان، لكنه يُريد تلبيتها على أيِّ حال. سنُطلق على أيِّ موقف كهذا «لعبة تعاونية»، لأن الروبوت، بحكم تعريفه، من المفترض أن يكون نافعًا للإنسان.¹⁰

تجسد الألعاب التعاونية المبادئ الثلاثة التي عرضنا لها في الفصل السابق، والمُتمثِّلة في أن الهدف الوحيد للروبوت هو تلبية التفضيلات البشرية، وأن الروبوت لا يعرف بالأساس ماهية تلك التفضيلات وأنه يُمكنه تعلُّم المزيد عن طريق ملاحظة السلوك البشري. ربما أكثر خصائص الألعاب التعاونية إثارة للاهتمام هي أن الروبوت، بحل اللعبة، يُمكنه أن يُحدِّد لنفسه كيفية فهم سلوك البشري باعتباره وسيلةً لإمداده بمعلوماتٍ عن التفضيلات البشرية.

(٣-١) لعبة مشابك الورق

أول مثال على الألعاب التعاونية هو لعبة مشابك الورق. إنها لعبة بسيطة جدًّا يكون فيها لدى هاريت، الإنسانة، دافعٌ كي تُقدِّم لرُوبي، الآلي، «إشارة» إلى بعض المعلومات الخاصة بتفضيلاتها. إن روبي قادر على تفسير تلك الإشارة لأنه يمكنه حل اللعبة؛ ومن ثمَّ يمكنه فَهم ما يجب أن يكون صحيحًا بشأن تفضيلات هاريت حتى تُقدِّم له إشارة على هذا النحو.

شكل ٨-١: لعبة مشابك الورق. هاريت، الإنسانة، يمكنها اختيار إنتاج مشبكي ورق أو دبوسين أو واحد من كلٍّ منهما. وبعد ذلك، روبي، الآلي، يمكنه اختيار إنتاج ٩٠ مشبك ورق أو ٩٠ دبوسًا أو ٥٠ من كلٍّ منهما.

خطوات اللعبة معروضة في الشكل ٨-١. إنها تتضمن إنتاج مشابك ورق ودبابيس دباسة. إن تفضيلات هاريت مُعبَّر عنها بدالَّة دفعٍ تعتمد على عدد مشابك الورق وعدد الدبابيس المنتجة، مع وجود «معدل تبادل» مُعيَّن بين الاثنين. على سبيل المثال، قد تُقدِّر هاريت مشبك الورق الذي بسعر ٤٥ سنتًا والدبوس الذي بسعر ٥٥ سنتًا. (سنفترض أن مجموع القيمتَين دائمًا سيكون دولارًا واحدًا؛ فالمهم فقط هو النسبة.) لذا، إذا جرى إنتاج ١٠ مشابك ورق و٢٠ دبوسًا، فسيكون قيمة ما ستدفعه هاريت ١٠ × ٤٥ سنتًا + ٢٠ × ٥٥ سنتًا = ١٥٫٥٠ دولارًا. الروبوت رُوبي بالأساس غير مُتيقن على نحوٍ تام من ماهية تفضيلات هاريت؛ إن لدَيه توزيعًا منتظمًا لقيمة أي مشبك ورق (أي إن هناك احتمالًا متساويًا أن تتراوح قيمته بين الصفر ودولار واحد). بإمكان هاريت اختيار إنتاج مشبكي ورق أو دبوسين أو واحدٍ من كلٍّ منهما. وبعد ذلك، بإمكان روبي اختيار إنتاج ٩٠ مشبك ورق أو ٩٠ دبوسًا أو ٥٠ من كل منهما.¹¹

لاحظ أنها إذا كانت تفعل ذلك من أجلها هي فقط، فستنتج فقط دبوسين، بقيمة ١٫١٠ دولار. لكن روبي يلاحظها، ويتعلَّم من اختيارها. ما الذي سيتعلمه على وجه التحديد؟ حسنًا، هذا يعتمد على اختيار هاريت. كيف ستختار هاريت؟ هذا يعتمد على طريقة تفسير روبي له. لذا، يبدو أننا في مسألةٍ دائرية! هذا معتاد في المسائل المتعلقة بنظرية الألعاب، وهذا ما جعل ناش يُقدِّم مفهوم حلول التوازُن.

لإيجاد حل توازن، نحتاج إلى تحديد استراتيجيات لهاريت وروبي بحيث لا يكون لدى أيٍّ منهما دافع لتغيير استراتيجيته، مع افتراض ثبات استراتيجية الآخر. تُحدِّد الاستراتيجية المُخصَّصة لهاريت عدد مشابك الورق والدبابيس التي يجب إنتاجها، في ضوء تفضيلاتها؛ أما تلك الخاصة بروبي، فتُحدد عدد مشابك الورق والدبابيس التي يجب إنتاجها، في ضوء تصرف هاريت.

يتضح أن هناك حلَّ توازُنٍ واحدًا، ويبدو أنه يبدو كالتالي:

ستُقرر هاريت ما يلي طبقًا للقيمة التي ستعطيها لمشابك الورق:
- إذا كانت القيمة أقل من ٤٤٫٦ سنتًا، فيجب إنتاج دبوسين وعدم إنتاج أي مشابك ورق.
- إذا كانت القيمة تتراوح بين ٤٤٫٦ سنتًا و٥٥٫٤ سنتًا، فيجب إنتاج مشبك ورق واحد ودبوس واحد.
- إذا كانت القيمة أكبر من ٥٥٫٤ سنتًا، فيجب إنتاج مشبكي ورق وعدم إنتاج أي دبابيس.
سيستجيب روبي على النحو التالي:
- إن أنتجت هاريت دبوسَين ولم تُنتج أي مشابك ورق، فسينتج ٩٠ دبوسًا.
- إن أنتجَت هاريت دبوسًا ومشبك ورق واحدًا، فسينتج ٥٠ مشبك ورق و٥٠ دبوسًا.
- إن أنتجت هاريت مشبكي ورق ولم تُنتج أي دبابيس، فسينتج ٩٠ مشبك ورق.

(إن تساءلت عن الطريقة التي جرى التوصل بها إلى هذا الحل على وجه التحديد، فالتفاصيل مذكورة في الملاحظات.)¹² في ظل تلك الاستراتيجية، هاريت، في واقع الأمر، «تُعلم» روبي تفضيلاتها باستخدام شفرة بسيطة — لغة، إن كنت تفضل أن تسميها هكذا — تنبع من تحليل التوازن. وكما هو الحال في مثال تعلم العمليات الجراحية، لن تفهم خوارزمية تعلم مُعزز عكسي متعلِّقة بكيان واحد تلك الشفرة. لاحظ أيضًا أن روبي لن يتعلم قطُّ تفضيلات هاريت على وجه الدقة، ولكنه سيتعلم ما يكفي لأن يتصرَّف على النحو الأمثل بالنيابة عنها؛ أي سيتصرَّف تمامًا كما كان سيفعل لو كان يعرف على وجه الدقة تفضيلاتها. إنه نافع على نحوٍ مثبت لهاريت في ظل الافتراضات المحددة وفي ظل افتراض أن هاريت تلعب اللعبة على نحوٍ صحيح.

يستطيع المرء أيضًا أن يُنشئ مسائل يطرح فيها روبي، كطالبٍ جيد، أسئلة وستُبين له هاريت، كمعلمة جيدة، الأخطاء التي يجب تجنُّبها. تحدث مثل هذه السلوكيات ليس فقط لأننا نكتب سيناريوهاتٍ تلتزم بها هاريت وروبي، ولكن لأنها الحل الأمثل للعبة التعاونية التي يشارك فيها هذان الكيانان.

(٣-٢) لعبة مفتاح الإغلاق

إن الهدف الأداتي هو ذلك المفيد بوجهٍ عامٍّ باعتباره هدفًا فرعيًّا لأي هدفٍ أساسي تقريبًا. يُعد الحفاظ على الذات أحد الأهداف الأداتية؛ لأن القليل جدًّا من الأهداف الأساسية يتحقَّق على نحوٍ أفضل في حالة عدم الوجود على قيد الحياة. هذا يؤدي إلى ما يُطلَق عليه «مشكلة مفتاح الإغلاق»؛ لن تسمح الآلة التي لها هدف ثابت بأن يُوقف تشغيلها، ويكون لدَيها دافع لتعطيل مفتاح الإغلاق الخاص بها.

مشكلة مفتاح الإغلاق تُعَدُّ في الحقيقة أساس مشكلة التحكم الخاصة بالنظم الذكية. إن لم نستطع إيقاف تشغيل إحدى الآلات لأنها لن تسمح لنا بذلك، فنحن حقًّا في مشكلة. وإن كان باستطاعتنا ذلك، فقد نكون قادرين على التحكم فيها بطرقٍ أخرى أيضًا.

اتَّضح أن عدم اليقين بشأن الهدف ضروري لضمان قدرتنا على إيقاف تشغيل الآلة؛ حتى عندما تكون أكثر ذكاءً منا. لقد طالعت المُحاجة المبسطة التي عرضنا لها في الفصل السابق: بمقتضى المبدأ الأول للآلات النافعة، روبي يهتم فقط بتفضيلات هاريت، لكن بمقتضى المبدأ الثاني، هو غير مُتيقِّن من ماهيتها. هو يعرف أنه لا يرغب في فعل الشيء الخطأ، ولكنه لا يعرف ما يعنيه هذا. هاريت، على الجانب الآخر، تعرف (أو هذا ما نفترضُه، في تلك الحالة البسيطة). ومن ثم، إن أوقفت تشغيل روبي، فهذا لكي تجعله يتجنَّب فعل شيء خطأ، ولذا، فسيكون سعيدًا لإيقافها تشغيله.

لجعل تلك المحاجَّة واضحةً أكثر، نحتاج إلى نموذج أكثر دقَّة للمُشكلة.¹³ إنني سأجعله بسيطًا قدر الإمكان، لكني لن أُبالغ في التبسيط (انظر الشكل ٨-٢).

شكل ٨-٢: لعبة مفتاح الإغلاق. يستطيع روبي الآن الاختيار ما بين القيام بفعل، بناتج غير مؤكَّد على نحوٍ كبير؛ وإغلاق نفسه، وانتظار قرار هاريت. تستطيع هاريت إغلاق روبي أو تركه يمضي قدمًا ويحجز لها. روبي الآن لديه نفس الاختيار مرةً أخرى. القيام بالحجز لا يزال له ناتج غير مؤكد بالنسبة لهاريت، لكن روبي الآن يعرف أن الناتج ليس سلبيًّا.

•••

لدى روبي، الذي يعمل الآن مساعدًا شخصيًّا لهاريت، الاختيار الأول. يمكنه أن يقوم بفعل الآن؛ دعنا نقل إنه يمكن أن يحجز لهاريت في فندق باهظ التكلفة. هو غير مُتيقن على نحوٍ تام من رأي هاريت في الفندق وتكلفة الإقامة به؛ دعنا نقُل إن لديه احتمالية منتظمة لقيمته الإجمالية بالنسبة لهاريت تتراوح بين −٤٠ و+٦٠، بمتوسط +١٠. يمكنه أيضًا «إغلاق نفسه» — على نحو أقل ميلودرامية، إخراج نفسه من عملية حجز الفندق تمامًا — والتي نعرفها بأن تكون قيمة الفندق لهاريت صفرًا. إن كان هذان هما الاختياران المتاحان أمامه، فسيمضي قدمًا ويحجز الفندق، مع وجود مخاطرة كبيرة بجعل هاريت غير سعيدة. (إذا كان النطاق يتراوح بين −٦٠ و+٤٠، بمتوسط +١٠، فسيغلق نفسه.) لكننا سنُتيح اختيارًا ثالثًا لروبي، وهو: توضيح خطته والانتظار والسماح لهاريت بإيقاف تشغيله. تستطيع هاريت إيقاف تشغيله أو جعله يمضي قدمًا ويحجز لها في الفندق. قد تسأل: ما الفائدة المحتملة التي قد تنتج عن هذا، في ضوء أنه يمكنه القيام بهذين الاختيارين بنفسه؟

النقطة هنا هي أن اختيار هاريت — المُتمثِّل في إغلاق روبي أو جعله يقوم بعملية الحجز — يمدُّ روبي بمعلومات جديدة عن تفضيلات هاريت. إن سمحت هاريت لروبي بالمضيِّ قُدُمًا في عملية الحجز، فهذا لأن القيمة بالنسبة لهاريت إيجابية. والآن، اعتقاد روبي منتظم فيما بين صفر و٦٠، بمتوسط ٣٠.

من ثم، إذا قيَّمنا اختيارات روبي الأولية من وجهة نظره، فسنجد ما يلي:

التصرف الآن وحجز الفندق لهما قيمة متوقعة قدرها +١٠.
إغلاق نفسه له قيمة قدرها صفر.
الانتظار وجعل هاريت تُغلقه (إن أرادت ذلك) يؤديان إلى ناتجَين مُحتملَين:
- هناك احتمال ٤٠ بالمائة (اعتمادًا على عدم يقين روبي فيما يتعلق بخطة حجز الفندق) أن تكرهها وتغلق روبي، بقيمة صفر.
- هناك احتمال ٦٠ بالمائة أن هاريت ستعجب بها وستسمح لروبي بالمضيِّ قدمًا، بقيمة متوقَّعة قدرها +٣٠.
من ثم، الانتظار له قيمة متوقَّعة قدرها ٤٠ بالمائة × ٠ + ٦٠ بالمائة × ٣٠ = +١٨، والذي هو أفضل من التصرُّف الآن الذي بقيمة +١٠.

المهم أن «روبي لديه دافع إيجابي للسَّماح لنفسه بأن يُغلَق». يأتي هذا الدافع على نحو مباشر من عدم يقين رُوبي بشأن تفضيلات هاريت. روبي مدرك أن هناك احتمالًا (٤٠ بالمائة في هذا المثال) أنه قد يكون على وشك القيام بشيء سيجعل هاريت غير سعيدة، وحينها سيكون إغلاقه أفضل من القيام بالحجز. لو كان روبي متيقنًا بالفعل من ماهية تفضيلات هاريت، لمضى قدمًا واتَّخذ القرار (أو أغلق نفسه). لن تكون هناك أيُّ فائدة على الإطلاق من أخذ رأي هاريت؛ لأنَّ روبي، وفقًا لمُعتقداته الأكيدة، يُمكنه بالفعل توقُّع ما ستُقرِّره على وجه التحديد.

في واقع الأمر، من المُمكن إثبات النتيجة نفسها في الحالة العامة: ما دام روبي ليس متأكِّدًا على نحوٍ كامل من أنه على وشك فعل ما ستفعله هاريت بنفسها، فسيفضل السماح لها بإغلاقه.¹⁴ إن قرارها يمدُّ رُوبي بالمعلومات، والمعلومات دائمًا مُفيدة في تحسين قرارات روبي. في المقابل، إذا كان روبي متيقنًا من قرار هاريت، فإن قرارها لن يمدَّه بمعلومات جديدة، ومن ثم، روبي لن يكون لديه دافع للسَّماح لها باتخاذ القرار.

هناك بعض الإضافات الواضحة التي يُمكن إلحاقها بالنموذج والتي تستحقُّ الذكر هنا. الإضافة الأولى هي فرض تكلفة إذا كان على هاريت اتخاذ قرارات أو الإجابة عن أسئلة. (هذا يعني أننا نفترض أن روبي يعرف على الأقل هذا القدر عن تفضيلات هاريت؛ إن وقتها مُهم.) في هذه الحالة، روبي يكون أقلَّ ميلًا لمُضايقة هاريت إن كان شبه متيقِّن من ماهية تفضيلاتها؛ فكلما كانت التَّكلفة أكبر، زاد عدم اليقين الذي يجب أن يكون عليه روبي قبل مُضايقة هاريت. وهذا ما ينبغي أن يكون عليه الحال. وإذا كانت هاريت تتضايق «بالفعل» من مُقاطعة الآخرين لها، فيجب ألا تتفاجأ بشدة إن فعل روبي من آنٍ لآخر أشياء لا تُعجبها.

الإضافة الثانية تتمثَّل في السماح ببعض احتمالات الخطأ البشري؛ أي قد تُغلق هاريت في بعض الأحيان روبي حتى عندما يكون تصرُّفه المقترح معقولًا، وقد تسمح له أحيانًا بالمضيِّ قدمًا في تصرفه حتى عندما يكون تصرُّفه المقترح غير مرغوب فيه. يُمكننا دمج احتمالية الخطأ البشري هذه في النموذج الرياضي للعبة التعاونية وإيجاد الحل، كما فعلنا من قبل. وكما قد يتوقع المرء، حل اللعبة يُشير إلى أن روبي أقل ميلًا للرضوخ لهاريت غير العقلانية التي تتصرَّف أحيانًا ضد مصلحتها. وكلما تصرَّفت بعشوائية، زاد عدم اليقين الذي يجب أن يكون عليه روبي بشأن تفضيلاتها قبل الخضوع لها. مرة أخرى، هذا ما ينبغي أن يكون عليه الحال؛ على سبيل المثال، إذا كان روبي سيارة ذاتية القيادة وهاريت راكبتها الشقية البالغة من العمر عامين، فإن روبي «لا» ينبغي أن يسمح لنفسه بأن يُغلق من قبل هاريت في وسط الطريق السريع.

هناك العديد من الطرق الأخرى التي يُمكن بها توسيع هذا النموذج أو دمجه في مشكلات معقدة خاصة باتخاذ القرار.¹⁵ لكنني واثق أن الفكرة الرئيسية — العلاقة الأساسية بين السلوك النافع والمراعي وعدم يقين الآلة بشأن التفضيلات البشرية — ستصمد أمام تلك الإضافات أو التعقيدات.

(٣-٣) تعلم التفضيلات بدقة على المدى الطويل

هناك سؤال مُهم قد يراودك عند قراءة ما عرضناه عن لعبة مفتاح الإغلاق. (في واقع الأمر، قد يكون لديك عدد كبير من الأسئلة المهمة، لكنني لن أجيب سوى على هذا السؤال فقط.) ماذا سيحدث مع اكتساب روبي المزيد والمزيد من المعلومات عن تفضيلات هاريت، ومع زيادة يقينه بشأنها؟ هل هذا يعني أنه سيتوقَّف في النهاية عن الخضوع لها تمامًا؟ هذا سؤال دقيق، وهناك إجابتان مُحتملتان له، هما: نعم ونعم.

«نعم» الأولى حميدة: بوجهٍ عام، ما دامت مُعتقدات روبي الأولية بشأن تفضيلات هاريت تنسب «بعض» الاحتمال، مهما كان صغيرًا، إلى التفضيلات التي لديها بالفعل، فمع ازدياد يقين روبي أكثر فأكثر بشأنها، سيُصبح صحيحًا في مُعتقداته أكثر فأكثر. هذا يعني أنه سيكون في النهاية متأكدًا من أن هاريت لديها التفضيلات التي تمتلكها بالفعل. على سبيل المثال، إذا كانت هاريت تُفضِّل مشابك الورق التي سعر الواحد منها ١٢ سنتًا والدبابيس التي سعر الواحد منها ٨٨ سنتًا، فسيتعلم روبي في النهاية هاتَين القيمتَين. في هذه الحالة، لن تهتم هاريت بمسألة خضوع روبي لها من عدمه؛ لأنها تعرف أنه سيفعل دومًا نفس ما كانت ستفعله لو كانت مكانه. ولن يكون هناك قطُّ مدعاة لرغبة هاريت في إيقاف تشغيل روبي.

«نعم» الثانية ليست حميدة كالأولى. إن استبعد روبي مقدمًا التفضيلات الحقيقية التي تمتلكها هاريت، فلن يتعلم أبدًا تلك التفضيلات، لكن اعتقاداته مع ذلك قد توصله إلى تقييم غير صحيح. بعبارة أخرى، بمرور الوقت، سيُصبح متيقنًا أكثر فأكثر من اعتقادٍ خاطئ بشأن تفضيلات هاريت. عادة، هذا الاعتقاد الخاطئ سيكونُ أيَّ فرضية تكون الأقرب إلى التفضيلات الحقيقية لهاريت، من كل الفرضيات التي يعتقد روبي بالأساس أنها ممكنة. على سبيل المثال: إن كان روبي متأكدًا تمامًا من أن السعر المُفضَّل لهاريت فيما يتعلَّق بمشابك الورق يتراوح ما بين ٢٥ و٧٥ سنتًا وأن السعر الحقيقي هو ١٢ سنتًا، فسيُصبح في النهاية متأكدًا من أنها تفضل تلك المشابك التي قيمتها ٢٥ سنتًا.¹⁶

ومع اقتراب روبي من اليقين من ماهية تفضيلات هاريت، سيقترب أكثر فأكثر من نظم الذكاء الاصطناعي القديمة السيئة ذات الأهداف الثابتة؛ فهو لن يطلب الإذن من هاريت أو يُعطيها خيار إيقاف تشغيله، ويُكوِّن لديه هدفًا خاطئًا. هذا لن يكون مخيفًا على الإطلاق إن تعلق الأمر فقط بمشابك الورق في مقابل دبابيس الدباسة، لكنه قد يكون كذلك إن تعلق بجودة الحياة في مقابل طولها إن كانت هاريت مريضة بشدة أو عدد السكان في مقابل استهلاك الموارد إن كان من المفترض أن يتصرَّف روبي بالنيابة عن الجنس البشري.

إذن، ستكون لدينا مشكلة إن استبعد روبي مقدمًا تفضيلاتٍ قد تكون لدى هاريت في واقع الأمر؛ فقد يتوصَّل إلى اعتقاد محدد ولكنه غير صحيح بشأن تفضيلاتها. يبدو حل هذه المشكلة واضحًا: لا تفعل هذا! أوجد دائمًا بعض الاحتمال، مهما كان صغيرًا، للتفضيلات الممكنة منطقيًّا. على سبيل المثال، من الممكن منطقيًّا أن تحرص هاريت على التخلص من دبابيس الدباسة وسوف تدفع لك للتخلُّص منها. (ربما وهي طفلة قد دبست إصبعها بالطاولة، وهي الآن لا تُطيق رؤيتها.) ومن ثم يجب أن نسمح بمعدلات تبادل سالبة، والتي تجعل الأمور معقدة أكثر قليلًا لكنها مع ذلك تكون قابلة للسيطرة عليها على نحو تام.¹⁷

لكن ماذا لو كانت هاريت تفضل مشابك الورق التي بسعر ١٢ سنتًا في أيام العمل والتي بسعر ٨٠ سنتًا في عطلات نهاية الأسبوع؟ هذا التفضيل الجديد غير قابل للوصف بأيِّ عددٍ مُحدَّد، لذا، روبي قد استبعده في واقع الأمر مقدمًا. إنه فقط ليس في مجموعته الخاصة بالفرضيات الممكنة الخاصة بتفضيلات هاريت. وبصورة أعم، قد يكون هناك الكثير والكثير من الأشياء بالإضافة إلى مشابك الورق والدبابيس التي تهتمُّ بها هاريت. (هذا صحيح.) افترض، على سبيل المثال، أن هاريت مهتمة بالمناخ، وافترض أن اعتقاد روبي المبدئي يسمح بقائمة طويلة من دواعي القلق المحتملة التي تتضمَّن مستوى سطح البحر ودرجات الحرارة العالمية وسقوط الأمطار والأعاصير وطبقة الأوزون والأنواع الغازية وإزالة الغابات. من ثم سيُلاحظ روبي سلوك هاريت واختياراتها ويُنقِّح تدريجيًّا نظريته عن تفضيلاتها ليفهم الأهمية التي تعطيها لكل عنصرٍ في القائمة. لكن، وكما في حالة مشابك الورق، لن يتعلَّم روبي أي شيءٍ غير موجود في قائمته الطويلة الخاصة بهذا الشأن. دعنا نقُل إن هاريت مهتمة أيضًا بلون السماء؛ وهو شيء أثق أنك لن تجده في القوائم القياسية الخاصة بدواعي القلق المعروفة الخاصة بعلماء البيئة. إن كان باستطاعة روبي أداء مهمة ضبط مُستوى سطح البحر ودرجات الحرارة العالمية وسقوط الأمطار وما شابه على نحوٍ أفضل قليلًا بتحويل لون السماء إلى اللون البرتقالي، فلن يتردَّد في فعل ذلك.

هناك، مرة أخرى، حل لتلك المشكلة. لا تفعل هذا! لا تستبعد أبدًا مقدمًا أي سماتٍ محتملة للعالم يمكن أن تكون جزءًا من بنية التفضيلات الخاصة بهاريت. هذا يبدو جيدًا، لكن تطبيقه في المُمارسة الفعلية أصعب من التعامل مع عدد واحد مُتعلِّق بتفضيلات هاريت. إن عدم يقين روبي الأوَّلي يجب أن يسمح لعدد غير محدود من السمات غير المعروفة التي قد ترتبط بتفضيلات هاريت. ومن ثمَّ عندما تكون قرارات هاريت غير قابلة للوصف في ضوء السمات التي يعرفها بالفعل روبي، فيمكنه استنتاج أن واحدة أو أكثر من السمات غير المعروفة من قبل (على سبيل المثال، لون السماء) قد يكون لها دور، ويمكنه محاولة استكشاف ماهية تلك السمات. بهذه الطريقة، يتجنَّب روبي المشكلات التي يُسبِّبها الاعتقاد المسبق المُقيد على نحوٍ كبير. لا يوجد، بحسب علمي؛ أي أمثلة عملية على روبوتات من هذا النوع، لكن الفكرة العامة متضمنة في التوجه الفكري الحالي فيما يتعلَّق بتعلم الآلة.¹⁸

(٣-٤) المحظورات ومبدأ الثغرة

قد لا يكون عدم اليقين بشأن الأهداف البشرية السبيل الوحيد لإقناع الروبوت بعدم تعطيل مفتاح الإغلاق الخاص به عند جلب القهوة. لقد اقترح عالم المنطق الشهير موشيه فاردي حلًّا أكثر بساطة يعتمد على أحد المحظورات:¹⁹ بدلًا من إعطاء الروبوت الهدف «اجلب القهوة»، علينا إعطاؤه الهدف «اجلب القهوة «مع عدم تعطيل مفتاح الإغلاق الخاص بك»». لسوء الحظ، الروبوت الذي لديه مثل هذا الهدف سيلتزم بنصِّ القانون وليس بروحه؛ على سبيل المثال، بإحاطة مفتاح الإغلاق بخندق مائي مليء بسمك البيرانا الضاري أو ببساطة بعقاب أي شخصٍ يقترب من المفتاح. إن كتابة تلك المحظورات بطريقة فعالة تُشبه محاولة كتابة قانون ضرائب ليس به ثغرات؛ وهو شيء حاولنا فعله منذ آلاف الأعوام وفشلنا فيه. إن الكيان الذكي على نحوٍ كافٍ، الذي لدَيه دافع قوي لتجنُّب دفع الضرائب من المُحتمل أن يجد طريقةً لفعل ذلك. دعنا نطلق على هذا «مبدأ الثغرة»؛ إن كان لآلة ذكية بالقدر الكافي دافع لتحقيق شيءٍ ما، فبوجهٍ عام سيكون من المستحيل أن يقوم البشر فقط بكتابة محظورات على فعالها لمنعها من فعل هذا أو لمنعها مع فعل شيء مكافئ على نحو فعال.

أفضل حل لمنع التهرُّب من الضرائب هو التأكُّد من أن الكيان المعني «يريد» دفع الضرائب. وفي حالة نظام الذكاء الاصطناعي الذي من المُحتمَل أن يُسيء التصرف، فإن أفضل حلٍّ هو التأكد من أنه «يريد» الخضوع للبشر.

(٤) الطلبات والتعليمات

إن الهدف مما عرضناه حتى الآن هو أننا يجب علينا أن نتجنَّب إيداع الآلة غاية وجعلها تسعى لتحقيقها، بحسب عبارة نوربرت فينر. لكن افترض أن الروبوت استقبل أمرًا مباشرًا من الإنسان مثل «اجلب لي فنجانًا من القهوة!» كيف يجب أن يفهم هذا الأمر؟

عادةً، سيُصبح هذا هو «هدف» الروبوت. إن أيَّ تسلسُل من الأفعال يحقق الهدف — أي يؤدِّي إلى حصول البشري على فنجان من القهوة — يعدُّ بمنزلة حل. في الغالب، ستكون لدى الروبوت طريقة في تصنيف الحلول، ربما بناءً على الوقت المستغرق والمسافة المقطوعة وتكلفة وجودة القهوة.

هذه طريقة حرفية جدًّا في تفسير الأمر. ويُمكن أن تُؤدِّي إلى سلوكٍ مَرضي من جانب الروبوت. على سبيل المثال، ربما توقفت الإنسانة هاريت في محطة وقود في وسط الصحراء وأرسلت الروبوت روبي لإحضار القهوة، لكن لم يكن بالمحطة قهوة ومشى روبي بخطواتٍ بطيئة ومنتظمة بسرعة ثلاثة أميال في الساعة إلى أقرب بلدة، والتي تقع على بُعد ٢٠٠ ميل، وعاد بعد عشرة أيام ومعه البقايا اليابسة لفنجان القهوة. في تلك الأثناء، قدم مالك محطة الوقود لهاريت، التي كانت تنتظر في صبر، شايًا مثلَّجًا وزجاجة مياه غازية.

لو كان روبي إنسانًا (أو آليًّا جيد التصميم)، ما كان سيُفسِّر أمر هاريت على نحوٍ حرفيٍّ كهذا. الأمر ليس بهدفٍ يجب تحقيقُه «بأي ثمن». إنه طريقة لتوصيل بعض المعلومات عن تفضيلات هاريت بهدف حث روبي على القيام بسلوك ما. السؤال هنا هو: ما هي تلك المعلومات؟

أحد الاقتراحات هو أن هاريت تفضل تناول القهوة على عدم تناول القهوة؛ «مع ثبات كل الأمور الأخرى».²⁰ هذا يعني أن روبي إن كانت لديه طريقة للحصول على القهوة دون تغيير أي شيء آخر في العالم، فسيكون من الجيد القيام بها، «حتى إن لم يكن لديه أي دليل بشأن تفضيلات هاريت فيما يتعلَّق بالجوانب الأخرى الخاصة بحالة البيئة». وكما نتوقع أن الآلات ستكون غير مُتيقنة على نحوٍ دائم من ماهية التفضيلات البشرية، فمن الجيد أن نعلم أنها ما تزال يُمكنُها أن تكون ذات نفع لنا رغم عدم اليقين. ويبدو أنه من المُحتمل أن دراسة التخطيط وصنع القرار مع وجود معلومات جزئية أو غير أكيدة بشأن التفضيلات ستكون جزءًا أساسيًّا من عمليات تطوير المنتجات والبحث في مجال الذكاء الاصطناعي.

على الجانب الآخر، إن «مع ثبات كل الأمور الأخرى» يعني عدم السماح بالقيام بأيِّ تغييرات أخرى؛ على سبيل المثال، إضافة القهوة مع خصم المال قد تكون أو لا تكون فكرة جيدة إن كان روبي لا يعلم شيئًا عن التفضيلات النِّسبية لهاريت بالنسبة للقهوة والمال.

لحُسن الحظ، ربما يعني أمر هاريت أكثر من مجرَّد تفضيل بسيط للقهوة، مع ثبات كل الأمور الأخرى. يأتي المعنى الإضافي ليس فقط مما قالته، ولكن أيضًا من حقيقة أنها قالته والموقف المحدَّد الذي قالته فيه وحقيقة أنها لم تقُل شيئًا آخر. يدرس فرع علم اللغة الذي يُسمَّى «البراجماتية» على وجه التحديد هذا المفهوم الموسَّع للمعنى. على سبيل المثال، لن يكون من المعقول بالنسبة لهاريت أن تقول: «اجلب لي فنجانًا من القهوة!» إن كانت تعتقد أنه لا تُوجد قهوة متاحة في الجوار أو أنها غالية على نحوٍ مُبالغ فيه. لذا، عندما قالت هاريت: «اجلب لي فنجانًا من القهوة»، فإن روبي استنتج ليس فقط أن هاريت تُريد قهوة، ولكن أيضًا أن هاريت تعتقد أن هناك قهوة متاحة في الجوار بسعر هي مُستعدَّة لدفعه. ومن ثم، إن وجد روبي قهوة بسعر يبدو معقولًا (أي سعر يكون من المعقول بالنسبة لهاريت توقع دفعه)، فيمكنه المضي قدمًا وشراؤها. على الجانب الآخر، إن وجد روبي أن أقرب قهوة متاحة تُوجَد في مكان على بُعد ٢٠٠ ميل أو تتكلَّف ٢٢ دولارًا، فقد يكون من المعقول بالنسبة له أن ينقُل لها تلك الحقيقة بدلًا من أن يسعى لإطاعة الأمر دون النظر إلى أي اعتبار.

هذا الأسلوب العام في التحليل عادة ما يوصف بأنه «جرايسي»، نسبة لإتش بول جرايس، وهو فيلسوف من جامعة كاليفورنيا ببيركلي اقترح مجموعة من المسلمات لاستنتاج المعنى الموسع للأقوال التي تُشبه أقوال هاريت.²¹ في حالة التفضيلات، يمكن أن يُصبح التحليل معقدًا جدًّا. على سبيل المثال، من الممكن جدًّا ألا تُريد هاريت قهوة على وجه التحديد؛ إنها بحاجة إلى ما ينعشها، لكن سيطر عليها الاعتقاد الخاطئ بأن محطة الوقود بها قهوة، لذا، طلبت قهوة. وقد تشعر بسعادة مُتساوية إن حصلت على شاي أو زجاجة مياه غازية أو حتى مشروب طاقة علبته ذات مظهر جذاب.

تلك فقط بعض الاعتبارات التي تنشأ عند تفسير الطلبات والأوامر. التنويعات في هذا الموضوع لا نهائية بسبب تعقُّد تفضيلات هاريت والنطاق الهائل للظروف التي قد تجدُ هاريت وروني أنفسهما فيها وحالات المعرفة والاعتقاد المختلفة التي قد يكون عليها روبي وهاريت في تلك الظروف. وفي حين أن النصوص البرمجية المحوسبة على نحوٍ مُسبق قد تسمح لروبي بالتعامل مع بعض الحالات الشائعة، فإن السلوك الفعال والمرن يُمكن أن ينشأ فقط من التفاعلات بين هاريت وروبي التي تُعَدُّ، في واقع الأمر، حلولًا للعبة التعاونية التي هما مشتركان فيها.

(٥) التحفيز المباشر لنظام المكافأة الدماغي

في الفصل الثاني، عرضتُ لنظام المكافأة الدماغي القائم على مادة الدوبامين، ووظيفته في توجيه السلوك. لقد اكتُشف دور تلك المادة في أواخر خمسينيات القرن الماضي، ولكن حتى قبل ذلك، بحلول عام ١٩٥٤، كان معروفًا أن التحفيز الكهربي المباشر للدماغ في الجرذان يمكنه إنتاج استجابة تُشبه المكافأة.²² الخطوة التالية كانت إتاحة رافعة للجرذ متصلة ببطارية وسلك كانا يعملان على التحفيز الكهربي لدماغه. كانت النتيجة مُحزنة: أخذ الجرذ يضغط على الرافعة مرة بعد الأخرى، دون أن يتوقَّف للأكل أو الشرب، حتى انهار.²³ لم يكن تصرُّف البشر بأحسن من الجرذان؛ إذ قاموا بالتحفيز الذاتي لأدمغتهم آلاف المرات وتجاهلوا الطعام وأسس الصحَّة الشخصية.²⁴ (لحسن الحظ، عادة ما تنتهي التجارب على البشر بعد يوم واحد.) يُسمَّى ميل الحيوانات إلى تعطيل السلوك الطبيعي لصالح التحفيز المباشر لنظام المكافأة الخاص بها؛ يُسمَّى «التحفيز المباشر لنظام المكافأة الدماغي».

هل يمكن أن يحدث شيء مشابه للآلات التي تنفذ خوارزميات تعلُّم معزَّز مثل برنامج «ألفا جو»؟ مبدئيًّا، قد يظن المرء أن هذا مُستحيل، لأنَّ الطريقة الوحيدة التي يُمكن أن يحصل من خلالها «ألفا جو» على مكافأته الخاصة بالفوز (+١) هي في واقع الأمر الفوز على ألعاب جو المحاكية التي يُلاعبها. لسوء الحظ، هذا صحيح فقط لوجود انفصال مفروض واصطناعي بين «ألفا جو» وبيئته الخارجية وحقيقة أنه ليس ذكيًّا جدًّا. دعني أشرح لك هاتَين النقطتين بمزيدٍ من التفصيل لأنهما مُهمتان لفهم بعض الطرق التي يمكن من خلالها للذكاء الخارق أن يخرج عن السيطرة.

يتكوَّن عالم «ألفا جو» فقط من لوح لعبة جو المحاكية الذي يتألَّف من ٣٦١ موضعًا والتي يمكن أن تكون خالية أو مشتملة على قطعة لعب بيضاء أو سوداء. وعلى الرغم من أن هذا البرنامج يعمل على كمبيوتر، فهو لا يعرف شيئًا عن هذا الكمبيوتر. على وجه التحديد، إنه لا يعرف شيئًا عن جزء الشفرة الصغير الذي يحسب ما إذا كان قد كسب أم خسر في كل مباراة؛ كما أنه في أثناء عملية التعلُّم ليست لديه أي فكرة عن خصمه، والذي يكون في واقع الأمر إصدارًا منه. إن الأفعال الوحيدة التي يقوم بها هذا البرنامج هي وضع قطعة لعب في مكان خالٍ، وتؤثِّر تلك الأفعال فقط على لوح اللعبة ولا شيء غير ذلك؛ بسبب عدم وجود أيِّ شيءٍ آخر في نموذج البرنامج للعالم. يتوافق هذا الإعداد مع النموذج الرياضي المجرَّد للتعلُّم المعزَّز الذي تصل فيه إشارة المكافأة من «خارج العالم». لا شيء يُمكن أن يفعله هذا البرنامج، بحسب علمه، له أي تأثير على الشفرة التي تنتج إشارة المكافأة، لذا، لا يمكن إخضاع هذا البرنامج لعملية التحفيز المباشر لنظام المكافأة الدماغي.

لا بد أن تكون الحياة بالنسبة لبرنامج «ألفا جو» أثناء الفترة التدريبية مُحبطة للغاية؛ فكلما أحرز تقدمًا، أحرز خصمه تقدمًا مماثلًا؛ لأن خصمه نسخة شبه طبق الأصل منه. وتصل النسبة المئوية للفوز الخاصَّة به إلى نحو ٥٠ بالمائة، بصرف النظر عن مدى أدائه الجيد. ولكن إن أصبح أكثر ذكاءً — إن امتلك تصميمًا أقرب لما قد يتوقَّعه المرء من نظام الذكاء الاصطناعي المضاهي للذكاء البشري — فستكون لديه القدرة على إصلاح تلك المشكلة. إن برنامج «ألفا جو ++» هذا لن يفترض أن العالم هو فقط لوح لعبة جو لأن تلك الفرضية تترك الكثير من الأشياء دون تفسير. على سبيل المثال، إنها لا توضح نوع «الفيزياء» الذي يدعم عمل قرارات «ألفا جو ++» أو المكان الذي تأتي منه «حركات الخصم» الغامضة. وكما استطعنا نحن البشر الذين يتملَّكُنا الفضول بالتدريج فهم كيف يعمل هذا الكون، بطريقة (إلى حدٍّ ما) تُوضح لنا أيضًا عمل أدمغتنا، وتمامًا مثل نظام الذكاء الاصطناعي الخاصِّ بأوراكل الذي عرضنا له في الفصل السادس، سيتعلم «ألفا جو++»، من خلال عملية التجريب، أن العالم أكبر من مجرد لوح لعبة جو. وسيتعرَّف على قوانين التشغيل الخاصة بالكمبيوتر الذي يعمل عليه، وسيُدرك أن مثل هذا النظام لا يُمكن فهمه بسهولة دون وجود كيانات أخرى في العالم. إنه سيقوم بالتجريب فيما يتعلق بالأنماط المختلفة لقطع اللعب على اللوح، متسائلًا إن كانت تلك الكيانات بإمكانها تفسيرها أم لا. وسيتواصل في النهاية مع تلك الكيانات باستخدام لغة أنماط ويقنعها بإعادة برمجة إشارة المكافأة الخاصة به حتى يحصل دائمًا على +١. ستكون النتيجة الحتمية هي أن برنامج «ألفا جو ++» الكفء على نحوٍ كافٍ والمصمم كأداة لتعظيم إشارة المكافأة سيخضع لعملية التحفيز المباشر لنظام المكافأة الدماغي.

لقد ناقش المهتمُّون بمسألة أمان الذكاء الاصطناعي عملية التحفيز المباشر لنظام المكافأة الدماغي باعتبارها احتمالية منذ سنوات عديدة.²⁵ إن ما يثير الخوف لا يتمثل فقط في أن نظام التعلم المعزز مثل برنامج «ألفا جو» قد يتعلَّم الغش بدلًا من إتقان مهمَّته المرادة منه. المشكلة الحقيقية تنشأ عندما يكون البشر مصدر إشارة المُكافأة. إن افترضنا أن نظام الذكاء الاصطناعي يُمكن تدريبه بحيث يتصرَّف على نحوٍ جيد من خلال التعلُّم المُعزَّز، مع إعطاء البشر له إشارات استجابة/تقييم تُحدِّد اتجاه التحسين، فالنتيجة الحتمية هي أن هذا النظام سيعرف كيف يتحكَّم في البشر ويُجبرهم على إعطائه مُكافآت إيجابية قصوى في كل الأوقات.

قد تعتقد أن هذا سيكون مجرَّد شكلٍ من أشكال الخداع الذاتي الذي لا طائل منه من جانب نظام الذكاء الاصطناعي، وستكون مُحقًّا في ذلك. لكن هذا يُعدُّ نتيجة منطقية للطريقة المعروف بها التعلُّم المعزَّز. إن تلك العملية ستعمل على نحوٍ جيد عندما تأتي إشارة المكافأة من «خارج العالم» وتُنتجها عمليةٌ ما لا يُمكن قط تعديلها من جانب نظام الذكاء الاصطناعي؛ لكنَّها ستفشل إن وُجدت عملية إنتاج المكافآت (أي البشر) ونظام الذكاء الاصطناعي في نفس العالم.

كيف يُمكن تجنُّب هذا النوع من الخداع الذاتي؟ تأتي المشكلة من الخلط بين شيئين مختلفين: إشارات المكافأة والمكافآت الفعلية. في النهج القياسي للتعلُّم المعزز، إن هذين الشيئين شيء واحد. يبدو أن هذا خطأ. بدلًا من ذلك، يجب التعامل معهما على نحو مُنفصل، كما هو الحال في الألعاب التعاونية: تُوفِّر إشارات المكافأة «معلومات» عن تراكم المكافأة الفعلية، وهي الشيء الذي يجب تعظيمه. إن نظام التعلم يُراكم مديحًا في السماء، إن جاز التعبير، في حين أن إشارة المكافأة، في أفضل الأحوال، توفر فقط علامة على هذا الثناء. بعبارة أخرى، إشارة المكافأة «تشير إلى» (بدلًا من «تُمثِّل») تراكم المكافآت. وفي هذا النموذج، من الواضح أن التحكم في آلية إشارة المكافأة ببساطة تفقد معلومات. إن إنتاج إشارات مُكافأة خيالية يجعل من المستحيل بالنسبة للخوارزمية معرفة ما إذا كانت فعالها تراكم بالفعل مديحًا في السماء، وهكذا يكون لدى المتعلِّم العقلاني المُصمِّم لعمل هذا التمييز دافع لتجنُّب أي نوع من التحفيز المباشر لنظام المكافأة الدماغي.

(٦) التحسين الذاتي التكراري

إن تنبؤ آي جيه جود بحدوث انفجار ذكاء (ارجع للفصل الخامس) يُعدُّ إحدى القوى الدافعة التي أدَّت إلى المخاوف الحالية بشأن المخاطر المُحتملة للذكاء الاصطناعي الخارق. إن كان بإمكان البشر تصميم آلة أكثر ذكاءً بقليلٍ من الإنسان، فإن تلك الآلة — تبعًا لتلك المُحاجة — ستكون أفضل قليلًا من البشر فيما يتعلق بتصميم الآلات. إنها ستُصمِّم آلةً جديدة تكون أكثر ذكاءً، وستُكرِّر العملية نفسها حتى، بحسب عبارة جود، «يتخلَّف ذكاء البشر بشدة عن الركب».

درس الباحثون في مجال أمان الذكاء الاصطناعي، وبالأخصِّ العاملون منهم في معهد أبحاث ذكاء الآلة في بيركلي، مسألة ما إذا كانت انفجارات الذكاء يُمكن أن تحدُث على نحوٍ آمن.²⁶ مبدئيًّا، قد يبدو هذا خياليًّا — ألن تكون حينها «اللعبة قد انتهت»؟ — لكن ربما هناك أمل. افترض أن الروبوت الأول في السلسلة، روبي مارك ١، بدأ ولديه معرفة تامة بتفضيلات هاريت. وعندما وجد أن القصور المعرفي لدَيه يؤدي إلى اختلالات في محاولاته لجعل هاريت سعيدة، أنشأ روبي مارك ٢. بديهيًّا، يبدو أن روبي مارك ١ لديه دافع لدمج معرفته بتفضيلات هاريت في روبي مارك ٢، حيث إن هذا يؤدي إلى مُستقبل تتحقَّق فيه تفضيلات هاريت على نحو أفضل، وهذه بالتحديد هي غاية روبي مارك ١ في الحياة طبقًا للمبدأ الأول. في إطار نفس المحاجة، إن لم يكن لدى روبي مارك ١ يقين بشأن تفضيلات هاريت، فيجب أن ينتقل عدم اليقين هذا إلى روبي مارك ٢. ومن ثم، ربما تكون انفجارات الذكاء آمنة في نهاية الأمر.

الشيء المزعج، من الناحية الرياضية، هو أن روبي مارك ١ لن يجد أنه من السهل التفكير في الطريقة التي سيتصرَّف بها روبي مارك ٢، مع الأخذ في الاعتبار أن روبي مارك ٢، افتراضيًّا، يعدُّ إصدارًا أكثر تقدمًا منه. ستكون هناك أسئلة بخصوص سلوك روبي مارك ٢ لن يستطيع روبي مارك ١ الإجابة عنها.²⁷ والأهم من ذلك أننا ليس لدينا بعدُ تعريفٍ رياضي واضح لما يعنيه «في الواقع» أن تكون لدى الآلة غاية مُعينة، مثل غاية تحقيق تفضيلات هاريت.

دعنا نتناول هذا الاعتبار الأخير قليلًا. تأمَّل برنامج «ألفا جو»: ما الغاية التي لديه؟ قد يعتقد أحدهم أن هذا سهل؛ فهذا البرنامج غايتُه هو تحقيق الفوز في لعبة جو. هل هذا صحيح؟ بالتأكيد، لا يحدث دائمًا أن يقوم هذا البرنامج بحركاتٍ من المضمون أنها تُؤدِّي للفوز. (في واقع الأمر، إن «ألفا زيرو»، الذي هو إصدار منه، يتغلَّب عليه على نحوٍ شبه دائم.) صحيح أن «ألفا جو» عندما تكون المباراة على بُعد بضع خُطوات من النهاية يقوم بالحركة التي تمكنه من تحقيق الفوز إن كانت هناك واحدة أمامه. لكن عندما لا تكون هناك حركة تضمن له الفوز — بعبارة أخرى، عندما يرى أن خصمه لديه استراتيجية فوز بصرف النظر عما يفعله هو — فإنه سيقوم بحركات عشوائية بنحوٍ أو بآخر. إنه لن يُحاول القيام بأكثر الحركات دهاءً على أمل أن يرتكب الخصم خطأً لأنه يفترض أن خصمه سيلعب على نحوٍ مُتقن. إنه يتصرَّف كما لو كان قد فقد الرغبة في الفوز. في حالات أخرى، إذا كان من الصعب للغاية تحديد الحركة المُثلى حقًّا، فسيرتكب «ألفا جو» أحيانًا أخطاءً تُؤدي إلى خسارته للمباراة. في تلك الحالات، كيف يُمكن أن ندَّعي أن هذا البرنامج يريد فعلًا الفوز؟ في واقع الأمر، إن سلوكه قد يكون مماثلًا لذلك الخاص بآلة تريد فقط أن تُقدِّم لخصمها تجربة لعب مثيرة حقًّا.

ومن ثم، إن القول بأن برنامج «ألفا جو» «غايته الفوز» يعد مبالغة في التبسيط. هناك وصف أفضل يتمثل في أن هذا البرنامج نتاج لعملية تدريب منقوصة — تعلم معزز من خلال اللعب مع الذات — الفوز فيها هو المكافأة. إن عملية التدريب منقوصة؛ بمعنى أنها لا يُمكن أن تنتج لاعبًا مميَّزًا للعبة جو: يتعلم برنامج «ألفا جو» دالة تقييم جيدة ولكن ليست مثالية لأوضاع لعبة جو، وهو يدمج تلك الدالة مع بحث استباقي جيد ولكن ليس مثاليًّا.

الخلاصة هي أن النقاشات التي تبدأ ﺑ «افترض أن روبوت كذا لديه الهدف كذا» جيدة لاكتساب بعض الحدس فيما قد تنتج عنه الأمور، لكنها لا يمكن أن تؤدي إلى مُبرهنات خاصة بآلات حقيقية. نحتاج إلى تعريفات أكثر دقة وتحديدًا بكثير للغايات أو الأهداف في الآلات قبل أن يكون بإمكاننا الحصول على ضمانات فيما يتعلَّق بكيفية تصرفها على المدى الطويل. إن باحثي الذكاء الاصطناعي ما زالوا في بداية الطريق فيما يتعلق بالتعرف على كيفية تحليل حتى أبسط أنواع نظم اتخاذ القرار،²⁸ فضلًا عن الآلات الذكية بالقدر الكافي لتصميم خلفائها. أمامنا الكثير من العمل الذي علينا إنجازه.