الفصل الرابع

الشبكات العصبية الاصطناعية

تتركب الشبكات العصبية الاصطناعية من مجموعة وحدات مترابطة، وكل وحدة قادرة على حوسبة شيء واحد فقط. بذلك الوصف، قد تبدو الشبكات شيئًا مملًّا. لكنها تكاد تكون شيئًا سحريًّا. ومن المؤكَّد أنها سحرت الصحفيين. ففي ستينيات القرن العشرين، تحدثت الصحف بحماسة عن شبكات «بيرسيبترون» التي اخترعها فرانك روزنبلات، وهي عبارة عن أجهزة كهروضوئية تعلمت التعرف على الحروف من دون تعليمها بشكل صريح. وعلى وجه التحديد، أحدثت الشبكات العصبية الاصطناعية ضجة في أواسط ثمانينيات القرن العشرين، ولم تنقطع وسائل الإعلام حتى الآن عن الإشادة بها. والضجيج الحالي المرتبط بالشبكات العصبية الاصطناعية له علاقة بالتعلم العميق.

للشبكات العصبية الاصطناعية تطبيقات لا تُحصى، بدايةً من تشغيل سوق الأوراق المالية ورصد تقلبات العملات وحتى التعرف على الكلام والوجوه. ولكن ما يأسر العقلَ «الطريقةُ التي تعمل بها» تلك الشبكات.

تعمل حفنة صغيرة من تلك الشبكات على جهاز خاص متوازٍ، أو حتى على مزيج من الأجهزة/الأجهزة العصبية التي تجمع بين الخلايا العصبية الحقيقية ودوائر السيليكون. لكن عادةً ما تُحاكى الشبكة باستخدام جهاز فون نيومان. وهذا يعني أن الشبكات العصبية الاصطناعية عبارة عن أجهزة افتراضية تعمل بالمعالجة المتوازية، وتُنفَّذ على أجهزة الكمبيوتر الكلاسيكية (انظر الفصل الأول).

إنها مثيرة للاهتمام جزئيًّا لأنها تختلف كثيرًا عن الأجهزة الافتراضية للذكاء الاصطناعي الرمزي. فالتعليمات المتسلسلة يحل محلَّها التوازي الكثيف، والتحكم من أعلى إلى أسفل تحل محلَّه المعالجةُ من أسفل إلى أعلى، والمنطق تحل محلَّه الاحتمالية. أما الجانب الديناميكي المتغير باستمرار في الشبكات العصبية الاصطناعية فيتناقض تناقضًا صارخًا مع البرامج الرمزية.

إضافة إلى ذلك، تمتلك العديد من الشبكات خاصية خارقة، وهي تولُّد التنظيم الذاتي من رحم البداية العشوائية. (كذلك شبكات بيرسيبترون التي اختُرعت في ستينيات القرن العشرين تمتلك تلك الخاصية، ومن هنا كان انتشارها في الأخبار الصحفية). يبدأ النظام ببنية معمارية عشوائية (أوزان وروابط عشوائية)، ويكيِّف نفسه تدريجيًّا كي ينفذ المهمة المطلوبة.

تمتلك الشبكات العصبية العديد من نقاط القوة، كما أنها أضافت قدرات حاسوبية كبيرة إلى الذكاء الاصطناعي. ومع ذلك، فهي لديها نقاط ضعف. فهي لا يمكنها تحقيق الذكاء الاصطناعي العام كما هو موصوف في الفصل الثاني. على سبيل المثال، على الرغم من أن بعض الشبكات العصبية الاصطناعية يمكنها عمل استدلال أو تفكير منطقي تقريبي، فهي لا تستطيع تمثيل الدقة مثلما يمثلها الذكاء الاصطناعي الرمزي. (س: ما مجموع ٢ + ٢؟ ج: من المرجح ٤. حقًّا؟) كذلك يصعب نمذجة التسلسل الهرمي في الشبكات العصبية الاصطناعية. بعض الشبكات (المتكررة) تستخدم الشبكات التفاعلية لتمثيل التسلسل الهرمي، ولكن بدرجة محدودة.

بفضل الحماسة الحالية للتعلم العميق، فقد أصبحت شبكات الشبكات أقل ندرةً الآن عما كانت عليه من قبل. ومع ذلك، فهي لا تزال بسيطة نسبيًّا. لا بد أن الدماغ البشري يتكون من عدد لا يُحصى من الشبكات على العديد من المستويات، وتتفاعل بطرق معقَّدة للغاية. باختصار، الذكاء الاصطناعي العام لا يزال بعيدًا للغاية.

الآثار الأوسع نطاقًا للشبكات العصبية الاصطناعية

الشبكات العصبية الاصطناعية انتصار للذكاء الاصطناعي الذي يُعتبر من علوم الكمبيوتر. لكن آثارها النظرية أبعد من ذلك بكثير. بسبب بعض أوجه الشبه العامة مع المفاهيم الإنسانية والذاكرة، يهتم علماء الأعصاب وعلماء النفس والفلاسفة بالشبكات العصبية الاصطناعية.

اهتمام علم الأعصاب ليس جديدًا. في الحقيقة، لم يقصد روزنبلات من شبكات بيرسيبترون أن تكون مصدرًا للأدوات المفيدة عمليًّا، ولكن قصد أن تكون «نظرية عصبية نفسية». وعلى الرغم من أوجه الاختلاف العديدة بين الشبكات والدماغ، أصبحت الشبكات مهمة في علم الأعصاب الحاسوبي.

يهتم علماء النفس أيضًا بالشبكات العصبية الاصطناعية، ولم يتخلَّف عنهم الفلاسفة كثيرًا. على سبيل المثال، تسبَّب أحد الأمثلة في منتصف ثمانينيات القرن العشرين في إثارة ضجة خارج صفوف الذكاء الاصطناعي الاحترافي. من الواضح أن تلك الشبكة تعلمت استخدام زمن الماضي كثيرًا مثل الأطفال؛ إذ بدأت بعدم ارتكاب أخطاء ثم أفرطت في التنظيم قبل أن تحقق الاستخدام الصحيح لكلٍّ من الأفعال المنتظمة وغير المنتظمة؛ ومن ثَم الفعل go/went أفسح الطريق للصيغة go/goed. كان ذلك ممكنًا لأن المدخلات التي جرى توفيرها لها تعكس الاحتمالات المتغيرة للكلمات التي يسمعها الطفل عادةً؛ لم تكُن الشبكة تطبِّق القواعد النحوية الفطرية.

كان هذا مهمًّا لأن معظم علماء النفس (والعديد من الفلاسفة) حينذاك قبلوا أقوال نعوم تشومسكي بأن الأطفال يجب أن يعتمدوا على القواعد اللغوية الفطرية حتى يتعلموا النحو، وبأن التنظيم المفرِط لدى الأطفال كان دليلًا لا يقبل الجدل على تطبيق تلك القواعد. أثبتت شبكة زمن الماضي عدم صحة أيٍّ من تلك الأقوال. (بالطبع لم تثبت أن الأطفال ليس لديهم قواعد فطرية، بل ببساطة أثبتت أنهم لا يحتاجون إليها).

مثال آخر مثير للاهتمام على نطاق واسع، وهو البحث عن «المسارات التمثيلية»، وهو مستوحًى في الأساس من علم نفس النمو. وهنا (وكذلك في التعلم العميق)، تسجَّل البيانات المدخلة التي كانت مربكة في البداية على مستويات تعاقبية، بحيث تُمسك القواعد المنتظمة الأقل وضوحًا بالإضافة إلى القواعد المنتظمة الواضحة. هذا لا يرتبط بنمو الطفل فحسب، بل يرتبط أيضًا بالمناقشات النفسية والفلسفية بشأن التعلم الاستقرائي. وبذلك يتضح أن التوقعات السابقة (البنية الحاسوبية) مطلوبة من أجل تعلم الأنماط في البيانات المدخلة، وأن هناك قيودًا لا مفرَّ منها على الترتيب الذي يجري من خلاله تعلُّم الأنماط المختلفة.

باختصار، منهجية الذكاء الاصطناعي هذه مثيرة للاهتمام بعدة طرق، كما أنها بالغة الأهمية من الجانب التجاري.

المعالجة الموزعة المتوازية

توجد فئة من فئات الشبكات العصبية الاصطناعية التي تجذب انتباه كثيرين، ألا وهي التي تنفذ المعالجة الموزعة المتوازية. في الحقيقة، عندما يشير الناس إلى «الشبكات العصبية» أو «الترابطية» (مصطلح قلَّ استخدامه في هذه الأيام)، فعادةً ما يقصدون المعالجة الموزعة المتوازية.

نظرًا إلى الطريقة التي تعمل بها شبكات المعالجة الموزعة المتوازية، فإنها تتشارك في أربعة نقاط قوًى أساسية. ترتبط هذه النقاط بكلٍّ من التطبيقات التكنولوجية وعلم النفس النظري (وبفلسفة العقل أيضًا).

النقطة الأولى هي قدرتها على تعلُّم الأنماط والعلاقات بين تلك الأنماط عن طريق عرض الأمثلة بدلًا من برمجتها برمجة صريحة.

النقطة الثانية هي تقبُّل الأدلة «الفوضوية». تلك الأنظمة يمكنها تحقيق الاكتفاء المقيد، بحيث تُعطي معنًى منطقيًّا من الأدلة المتعارضة جزئيًّا. إنها لا تتطلب تعريفات دقيقة معبَّرًا عنها في صورة قوائم من الشروط الضرورية والوافية. بل إنها تتعامل مع المجموعات المتداخلة من التشابهات المتجانسة؛ وهي سمة لمفاهيم البشر كذلك.

نقطة القوة الثالثة هي القدرة على التمييز بين الأنماط التالفة بالكامل والتالفة جزئيًّا. فهي تحتوي على ذاكرة قادرة على معالجة المحتوى. وهكذا هم البشر، ولنضرب مثالًا بالتعرف على النغمة من أول بضعة ألحان، أو عندما تتخللها العديد من الأخطاء عند العزف.

نقطة القوة الرابعة هي الدقة. فشبكة المعالجة الموزعة المتوازية التي تفتقد بعض العقد لا تعطي نتائج لا معنى لها ولا تتوقف. إنها تُظهر تدهورًا حميدًا، وفيه يسوء الأداء تدريجيًّا مع زيادة التلف. لذا فهي ليست هشَّة، مثل البرامج الرمزية.

تلك الفوائد ناتجة عن «التوزيع» في المعالجة الموزعة المتوازية. ليس كل الشبكات العصبية الاصطناعية تتضمن المعالجة الموزعة. في الشبكات المحلية (مثل «ووردنت»؛ انظر الفصل الثاني)، يتم تمثيل المفاهيم بعقد منفردة. في الشبكات الموزعة، يخزَّن المفهوم (يوزَّع) عبر النظام بأكمله. في بعض الأحيان، تُدمج المعالجة المحلية مع الموزعة، ولكن لا يحدث ذلك كثيرًا. الشبكات المحلية الخالصة ليست شائعة أيضًا؛ لأنها تفتقر إلى نقاط القوة الأساسية في المعالجة الموزعة المتوازية.

يمكن القول إن الشبكات الموزعة عبارة عن شبكات محلية في أساسها؛ لأن كل وحدة تتوافق مع ميزة دقيقة واحدة؛ على سبيل المثال، رقعة لون صغيرة في مكان معين في المجال البصري. ولكن تُعرَّف تلك الشبكات على مستوًى أقل بكثير من المفاهيم؛ فالمعالجة الموزعة المتوازية تتضمن حوسبة «شبه رمزية». إضافة إلى ذلك، كل وحدة يمكن أن تكون جزءًا من عدة أنماط كلية مختلفة، ومن ثَم تساهم في العديد من «المعاني» المختلفة.

يوجد العديد من أنواع أنظمة المعالجة الموزعة المتوازية. كل الأنظمة مكوَّنة من ثلاث طبقات أو أكثر من الوحدات المتصلة، وكل وحدة لا تقدر إلا على حوسبة شيء واحد بسيط. ولكن الوحدات تختلف.

تنشط الوحدة في طبقة المدخلات متى قُدمت ميزتها الدقيقة إلى الشبكة. تنشط وحدة المخرجات عندما تتحفز بالوحدات المتصلة بها، ونشاطها يجري إيصاله إلى الشخص المستخدِم. الوحدات المخفية في الطبقة (الطبقات) الوسطى ليس لها اتصال مباشر بالعالم الخارجي. بعض تلك الوحدات محددة؛ بمعنى أنها تنشط — أو لا تنشط — بناءً على تأثيرات وصلاتها فحسب. بعضها الآخر عشوائي؛ بمعنى أنه يعتمد تنشيطها أو عدمه جزئيًّا على قدر من التوزيع الاحتمالي.

تختلف الوصلات أيضًا. فبعض الوصلات تكون ذات «تغذية أمامية»، بحيث تمرُّ الإشارات من طبقة دنيا إلى طبقة أعلى. وبعضها يرسل الإشارات ﺑ «التغذية الراجعة» في الاتجاه المعاكس. بعضها «جانبي» يربط الوحدات داخل الطبقة نفسها. وبعضها يجمع بين التغذية الأمامية والتغذية الراجعة كما سنرى. ومثل التشابكات العصبية في الدماغ، تكون الوصلات إما محفزة وإما مثبطة. إنها تتفاوت في القوة، أو «الوزن». يعبَّر عن الأوزان بالأعداد ما بين +١ إلى −١. كلما زاد وزن الرابط المحفز (أو المثبط)، زاد (أو قل) احتمال أن تنشط الوحدة التي تستقبل الإشارة.

تتضمن المعالجة الموزعة المتوازية تمثيلًا موزعًا؛ لأن كل مفهوم تمثله حالة الشبكة بكاملها. قد يبدو هذا محيرًا، بل متناقضًا. بالتأكيد هذا يختلف كثيرًا عن طريقة تحديد التمثيلات في الذكاء الاصطناعي الرمزي.

لا يهتم لذلك من يهتمون فقط بالتطبيقات التكنولوجية/التجارية. إذا اقتنعوا بأن أسئلة واضحة بعينها — مثل كيف لشبكة واحدة أن تخزن العديد من المفاهيم أو الأنماط المختلفة — لا تثير مشكلة من الناحية العملية، فإنهم يسعدون بتركها على حالها.

طرح المهتمون أيضًا بالتعقيدات النفسية والفلسفية للذكاء الاصطناعي ذلك «السؤال الواضح». الإجابة هي أن الحالات الإجمالية المحتملة لشبكات المعالجة الموزعة المتوازية كثيرة الأنواع، لدرجة أن القليل منها يتضمن التنشيط المتزامن في انتشار «هذه» الوحدات أو «تلك». ستنشر الوحدة المفعلة التنشيط على بعض الوحدات الأخرى فقط. ومع ذلك، تتفاوت تلك «الوحدات الأخرى»؛ بإمكان أي وحدة المساهمة في العديد من أنماط التنشيط المختلفة. (بوجه عام، تزيد كفاءة التمثيلات «المتفرقة» مع العديد من الوحدات غير النشطة). سيتشبع النظام في النهاية؛ يسأل البحث النظري بشأن الذاكرات الترابطية عن عدد الأنماط التي يمكن أن تخزنها شبكات ذات حجم معين من حيث المبدأ.

لكن المهتمين بالأنماط النفسية والفلسفية لن يسعدوا بترك الأمر عند هذا الحد. إنهم مهتمون بمفهوم «التمثيل» نفسه، كما أنهم مهتمون بالنقاشات بشأن ما إذا كان العقل/الدماغ البشري يجري تمثيلات بالفعل أم لا. على سبيل المثال، يجادل أتباع المعالجة الموزعة المتوازية أن ذلك النهج يدحض فرضية نظام الرموز الفيزيائية التي تأصَّلت في الذكاء الاصطناعي الرمزي، وانتشرت بسرعة في فلسفة العقل (انظر الفصل السادس).

التعلم في الشبكات العصبية

معظم الشبكات العصبية الاصطناعية بإمكانها التعلم. وهذا يتضمن إحداث تغييرات تكيفية في الأوزان وفي الاتصالات أحيانًا. عادةً ما يكون تشريح الشبكة ثابتًا، والمقصود بالتشريح هنا عدد الوحدات والروابط التي بينها. وإذا كان الأمر كذلك، فإن التعلم لا يغيِّر سوى الأوزان. ولكن في بعض الأحيان يمكن للتعلم — أو التطور (انظر الفصل الخامس) — أن يضيف روابط جديدة ويقطع الروابط القديمة. تستخدم الشبكات البنَّاءة تلك الخاصية إلى أقصى حد؛ بمعنى أنها لا تبدأ بوحدات مخفية على الإطلاق، بل إنها تضيفها مع التقدم في التعلم.

بإمكان شبكات المعالجة الموزعة المتوازية التعلم بالعديد من الطرق المختلفة، وقد ضربنا الأمثلة على جميع الأنواع المميزة في الفصل الثاني، وهي: التعلم الموجَّه والتعلم غير الموجَّه والتعلم المعزَّز.

في التعلم الموجَّه على سبيل المثال، تتعرف الشبكات على الفئات بعرض أمثلة متنوعة من تلك الفئة، ولا تحتاج أيٌّ من تلك الشبكات إلى امتلاك كل ميزة «نموذجية». (قد تكون البيانات المدخلة عبارة عن صور بصرية أو أوصاف لفظية أو مجموعات من الأرقام …) عند تقديم المثال، تستجيب بعض وحدات المدخلات إلى «ميزاتها الدقيقة»، وتنتشر عمليات التنشيط حتى تستقر الشبكة. عندئذٍ، تُقارَن حالة الوحدات المخرجة الناتجة بالنتيجة المرجوَّة (التي يحدِّدها المستخدِم البشري)، ويتم تحفيز المزيد من تغييرات الأوزان (ربما بالانتشار العكسي) بحيث يقل احتمال الأخطاء. بعد العديد من الأمثلة المختلفة اختلافًا طفيفًا، ستكون الشبكة قد طوَّرت نمط تنشيط يتطابق مع الحالة النموذجية أو «الأولية» حتى لو لم تكن قد قابلت حالة مماثلة بالفعل. (وإذا قُدم مثال فاسد الآن بحيث يؤدي إلى تحفيز عدد أقل من وحدات الإدخال ذات الصلة، فلن يكتمل هذا النمط تلقائيًّا).

يعتمد جزء كبير من تعلم الشبكات العصبية الاصطناعية على قانون «العصبونات التي تنشط معًا ترتبط معًا»، الذي طرحه اختصاصي علم النفس العصبي دونالد هيب في أربعينيات القرن العشرين. يقوِّي قانون هيب للتعلم الوصلات التي تُستخدم كثيرًا. عند تنشيط وحدتين في آنٍ واحد، فإن الأوزان تتكيف كي تزيد من احتمال ذلك في المستقبل.

عبَّر هيب عن قانون «العصبونات التي تنشط معًا ترتبط معًا» بطريقتين، ولكن لم تتَّسم أيٌّ من الطريقتين بالدقة أو المساواة. يعرف الباحثون في الذكاء الاصطناعي اليوم القانون بعدة طرق، وربما يعتمد ذلك على المعادلات المتفاوتة المستمدة من الفيزياء أو نظرية احتمالية بايزي. إنهم يستخدمون التحليل النظري للمقارنة بين الإصدارات المختلفة وتحسينها. ومن ثَم قد تكون أبحاث المعالجة الموزعة المتوازية رياضيةً بحتة.

على اعتبار أن شبكة المعالجة الموزعة المتوازية تستخدم قدرًا من قاعدة هيب في التعلم لتكييف أوزانها، فمتى تتوقف؟ الإجابة ليست «عند تحقيق الكمال (إزالة جميع التناقضات)»، بل الإجابة هي «عند تحقيق أقصى قدر من الاتساق».

يحدث «عدم الاتساق» على سبيل المثال عندما ترسل الوحدات ذات الصلة إشارة إلى ميزتين دقيقتين لا تُوجَدان معًا في العادة. بإمكان العديد من برامج الذكاء الاصطناعي الرمزي تقييد الاكتفاء، بحيث تقترب من الحل عن طريق إزالة التناقضات بين الأدلة في أثناء عملية التعلم. لكنها لا تعامل عدم الاتساق باعتباره جزءًا من الحل. فأنظمة المعالجة الموزعة المتوازية مختلفة. ومع ظهور نقاط قوة المعالجة الموزعة المتوازية المدرجة فيما سبق، فيمكنها النجاح في الأداء حتى مع وجود التناقضات. وعندئذٍ يصبح «حلها» هو الحالة الكلية للشبكة عند الحد من التناقضات وليس عند تعطيلها.

من طرق تحقيق ذلك استعارة فكرة «نقطة التوازن» من الديناميكا الحرارية. يعبَّر عن مستويات الطاقة باستخدام الأعداد، مثلما هي الحال مع الأوزان في المعالجة الموزعة المتوازية. إذا كانت قاعدة التعلم تُضاهي قوانين الفيزياء (وإذا كانت الوحدات المخفية عشوائية)، فإن معادلات بولتزمان الإحصائية يمكنها أن تصف التغييرات في الحالتين كلتيهما.

بإمكان المعالجة الموزعة المتوازية أن تستعير الطريقة المستخدمة في تبريد المعادن بسرعة ولكن بالتساوي. يبدأ التلدين عند درجة حرارة مرتفعة ويبرد تدريجيًّا. يستخدم الباحثون في المعالجة الموزعة المتوازية «خوارزمية محاكاة التلدين»، حيثما كانت تغييرات الوزن في الدورات الأولى القليلة من التوازن أكبر بكثير من التغييرات في الدورات اللاحقة. هذا يمكِّن الشبكة من تفادي المواقف (الحدود الدنيا المحلية)، حيث يتحقق الاتساق الكلي بالنسبة إلى ما جرى قبل ذلك، ولكن يمكن الوصول إلى مستوًى أكبر من الاتساق (ومستوى استقرار أعلى في نقطة التوازن) إذا اضطرب النظام. يمكن ضرب المثل بهزِّ كيس من الكرات الزجاجية لإخراج أي كرات مستقرة في الحافة الداخلية؛ بمعنى أنه في البداية ينبغي الهز بقوة ثم ينتهي بالهز بلطف.

توجد طريقة أسرع ومنتشرة الاستخدام أكثر لتحقيق أقصى درجة اتساق، ألا وهي توظيف الانتشار العكسي. ولكن أيًّا كانت القاعدة المطبقة من قواعد التعلم العديدة، فإن حالة الشبكة بالكامل (ولا سيما وحدات المخرجات) عند نقطة التوازن تُعتبر تمثيلًا للمفهوم المعني.

الانتشار العكسي والدماغ والتعلم العميق

يجادل المتحمسون للمعالجة الموزعة المتوازية أن شبكاتهم واقعية من الناحية البيولوجية أكثر من الذكاء الاصطناعي الرمزي. وصحيح أن المعالجة الموزعة المتوازية مستلهَمة من الدماغ، وأن بعض علماء الأعصاب يستخدمونها لنمذجة الوظائف العصبية. ولكن الشبكات العصبية الاصطناعية مختلفة إلى حد كبير عما يقبع داخل رءوسنا.

يتمثل أحد الفروق بين (معظم) الشبكات العصبية الاصطناعية والدماغ في الانتشار العكسي. إنها قاعدة تعلم — أو بالأحرى فئة عامة من قواعد التعلم — تُستخدم كثيرًا في المعالجة الموزعة المتوازية. لقد توقَّعها بول ويربوس عام ١٩٧٤، وقد وضع جيفري هينتون لها تعريفًا عمليًّا أكثر في أوائل ثمانينيات القرن العشرين. إنها تحل مسألة «إحالة الاستحقاق».

تنشأ تلك المسألة عبر كل أنواع الذكاء الاصطناعي، لا سيما عندما يتغير النظام باستمرار. بالنظر إلى نظام ذكاء اصطناعي معقد ولكنه ناجح، فما هي أكثر الأجزاء مسئوليةً عن هذا النجاح؟ في الذكاء الاصطناعي التطوري، غالبًا ما يجري تعيين الاستحقاق باستخدام خوارزمية «لواء الدلو» (انظر الفصل الخامس). في أنظمة المعالجة الموزعة المتوازية ذات الوحدات المحددة (غير العشوائية)، فالاستحقاق عادةً ما يعيِّنه الانتشار العكسي.

تتعقب خوارزمية الانتشار العكسي المسئولية بترتيب عكسي من طبقة المخرجات إلى الطبقات المخفية، وتحدد الوحدات الفردية التي يلزم تكييفها. (يجري تحديث الأوزان لتقليل أخطاء التوقع). تحتاج الخوارزمية إلى معرفة الحالة الدقيقة لطبقة المخرجات عندما تعطي الشبكة الإجابة الصحيحة. (وبذلك يكون الانتشار العكسي هو التعلم الموجَّه). تُعقد مقارنات فردية الوحدات بين تلك المخرجات النموذجية والمخرجات التي يجري الحصول عليها بالفعل من الشبكة. وأي فرق بين نشاط وحدة المخرجات في الحالتين يُعتبر خطأً.

تفترض الخوارزمية أن ذلك الخطأ في وحدة المخرجات ناتج عن خطأ (أخطاء) في الوحدات المتصلة بها. بالعمل باتجاه عكسي عبر النظام، يُنسب قدر معين من الخطأ إلى كل وحدة في الطبقة المخفية الأولى بناءً على وزن الاتصال بينها وبين وحدة المخرجات. تتم مشاركة المسئولية عن الخطأ بين كل الوحدات المخفية المتصلة بوحدة المخرجات التي وقع فيها الخطأ. (إذا كانت وحدة مخفية مرتبطة بالعديد من وحدات المخرجات، يجري تجميع المسئوليات المصغرة). عندئذٍ، تُعزى تغييرات الوزن النسبي إلى الوصلات بين الطبقة المخفية والطبقة السابقة.

قد تكون تلك الطبقة طبقةً أخرى (وأخرى …) من الوحدات المخفية. ولكن في النهاية، ستصبح طبقة المدخلات، وستتوقف التغييرات في الأوزان. تُكرر تلك العملية حتى تُقلل التناقضات في طبقة المخرجات.

على مدار سنوات عديدة، لم يكن الانتشار العكسي يُستخدم إلا في الشبكات التي تحتوي على طبقة مخفية واحدة. كانت الشبكات ذات الطبقات المتعددة نادرة؛ فإنه يصعب تحليلها، بل يصعب استخدامها في التجربة. لكن في الآونة الأخيرة، أحدثت ثورة هائلة — وبعض الضجيج غير المسئول — مع ظهور التعلم العميق. وفيها، يتعلم النظام بنية تصل إلى عمق النطاق بدلًا من مجرد الأنماط السطحية. بعبارة أخرى، يكتشف النظام تمثيل معرفة له مستويات متعددة وليس مستوًى واحدًا.

التعلم العميق مثير للاهتمام؛ لأنه يبشِّر بتمكين الشبكات العصبية الاصطناعية من التعامل مع التسلسل الهرمي على الأقل. منذ أوائل ثمانينيات القرن العشرين، كافح أتباع الترابطية أمثال هينتون وجيف إلمان من أجل تمثيل التسلسل الهرمي، إما بالجمع بين التمثيل المحلي/الموزَّع وإما بتحديد الشبكات المتكررة. (في الواقع، الشبكات المتكررة تعمل باعتبارها سلسلة من الخطوات المنفصلة. باستخدام التعلم العميق، تستطيع الإصدارات الحديثة في بعض الأحيان أن تتنبأ بالكلمة التالية في جملة أو حتى ﺑ «الفكرة» التالية في فقرة). ولكنها حققت نجاحًا محدودًا (لا تزال الشبكات العصبية الاصطناعية غير مناسبة لتمثيل التسلسلات الهرمية ذات التحديد الدقيق أو المنطق الاستنتاجي).

انطلق التعلم العميق هو الآخر في ثمانينيات القرن العشرين (على يد يورجن شميدهوبر). ولكن تفجر المجال أكثر في الفترة الأخيرة عندما قدم هينتون طريقة فعَّالة في تمكين الشبكات المتعددة الطبقات من اكتشاف العلاقة بين المستويات المتعددة. تتشكل أنظمة التعلم العميق من آلات بولتزمان «المقيدة» (من دون اتصالات جانبية) على ست طبقات. أولًا، تنفذ الطبقات التعلم غير الموجَّه. يجري تدريب الطبقات واحدة بواحدة باستخدام خوارزمية محاكاة التلدين. تُستخدم مخرجات طبقة باعتبارها مدخلات للطبقة التالية. وعندما تستقر الطبقة الأخيرة، يُضبَط النظام بأكمله ضبطًا دقيقًا باستخدام الانتشار العكسي حتى يصل إلى كل المستويات لتعيين الاستحقاق على النحو الملائم.

هذا النهج في التعلم يثير اهتمام اختصاصيي علم الأعصاب المعرفي، وكذلك مهندسو تكنولوجيا الذكاء الاصطناعي. يعود السبب في ذلك إلى «النماذج التوليدية» التي تتعلم التنبؤ (بأرجح) الأسباب وراء المدخلات؛ ومن ثَم توفر نموذجًا أسماه هلمهولتز «الإدراك في صورة استدلال لا واعي» عام ١٨٦٧. أي إن الإدراك ليس مسألة تلقي مدخلات بشكل سلبي من أعضاء الحواس. بل إنه يتضمن التفسير النشط، وحتى التنبؤ الاستباقي لتلك المدخلات. باختصار، العين/الدماغ ليس كاميرا.

التحق هينتون بشركة جوجل عام ٢٠١٣؛ ومن ثَم سيُستخدم الانتشار العكسي كثيرًا. تستخدم جوجل بالفعل التعلم العميق في العديد من التطبيقات، ومنها التعرف على الكلام ومعالجة الصور. وفي عام ٢٠١٤، اشترت شركة ديب مايند وقد أتقنت خوارزمية شبكة كيو العميقة التي تستخدمها ألعاب الأتاري الكلاسيكية عن طريق الجمع بين التعلم العميق والتعلم المعزَّز، وحاز برنامجها «ألفاجو» الريادة على مستوى العالم عام ٢٠١٦ (انظر الفصل الثاني). تفضِّل شركة «آي بي إم» أيضًا التعلم العميق؛ فهي تستخدمه في برامج «واتسون»، ويتم استعارته للعديد من التطبيقات المتخصصة (انظر الفصل الثالث).

لكن إذا كان التعلم العميق مفيدًا بلا شك، فهذا لا يعني أنه مفهوم جيدًا. يُوضح العديد من قواعد التعلم المتعددة الطبقات من الناحية العملية، ولكن التحليل النظري مُربِك.

من بين الأسئلة الكثيرة التي لا يوجد إجابة عليها السؤال الآتي: هل يوجد عمق كافٍ لتحقيق أداء يكاد يضاهي أداء العقل البشري؟ (وحدة وجه القطة المذكورة في الفصل الثاني ناتجة عن نظام مكوَّن من تسع طبقات). الجهاز البصري لدى الإنسان على سبيل المثال يحتوي على سبعة مستويات تشريحية، لكن كم عدد المستويات التي تضيفها العمليات الحاسوبية في القشرة الدماغية؟ وبما أن الشبكات العصبية الاصطناعية مستوحاة من الدماغ (نقطة لا ينفك التأكيد عليها في الحديث عن التعلم العميق)، فهذا السؤال طبيعي. ولكن المسألة ليست وثيقة الصلة كما يبدو.

الانتشار العكسي انتصار حاسوبي. ولكنه غير بيولوجي إلى أقصى حد. لا يمكن أن تَنتج «خلية جدة» لوجه القطة في الدماغ (انظر الفصل الثاني) عن عمليات مثل التي تحدث في التعلم العميق. التشابكات العصبية الحقيقية تتَّسم بالتغذية الأمامية الخالصة؛ بمعنى أنها لا تنقل في الاتجاهين كليهما. يحتوي الدماغ على اتصالات التغذية الراجعة في اتجاهات متعددة، ولكن كل اتجاه يسير في مسار واحد فقط. هذا مجرد فرق واحد من بين العديد من الفروق بين الشبكات العصبية الحقيقية والاصطناعية. (هناك فرق آخر، وهو أن الشبكات في الدماغ ليست منظمة تنظيمًا هرميًّا صارمًا، على الرغم من أن الجهاز البصري غالبًا ما يوصف بتلك الطريقة).

حقيقة أن الدماغ يحتوي على كلٍّ من الوصلات ذات التغذية الأمامية والراجعة ضروريةٌ من أجل نماذج «الترميز التنبُّئي» الخاص بالتحكم الحسي الحركي، وهو ما يسبب إثارة عظيمة في علم الأعصاب. (هذه النماذج أيضًا قائمة على عمل هينتون). ترسل مستويات الأعصاب العليا رسائل إلى الطبقات الأدنى بحيث تتنبأ بالإشارات الواردة من المستشعرات، ولا يرسَل إلى الطبقات الأعلى سوى رسائل «الخطأ» غير المتوقعة. تكرار الدورات لهذا النوع يولف الشبكات التنبُّئية؛ ومن ثَم تتعلم ما ينبغي توقعه بالتدريج. يتحدث الباحثون عن «دماغ بايزي»؛ لأن التنبؤات يمكن تفسيرها من منظور إحصائيات بايزي (انظر الفصل الثاني)، كما أن نماذج الكمبيوتر قائمة على تلك الإحصائيات في الحقيقة.

بالمقارنة مع الدماغ، فإن الشبكات العصبية الاصطناعية بالغة التنظيم والبساطة وقلة العدد وجدب المعلومات. إنها بالغة التنظيم لأن الشبكات التي يبنيها الإنسان تعطي الأولوية للذكاء والقوة الرياضية، ولكن الدماغ المتطور بيولوجيًّا لا يفعل ذلك. وبالغة البساطة لأن خلية عصبية واحدة معقَّدة حسابيًّا بقدر تعقيد نظام معالجة موزعة متوازية أو حتى جهاز كمبيوتر صغير، ويوجد ٣٠ نوعًا مختلفًا من الخلايا العصبية. وبالغة قلة العدد لأنه حتى الشبكات العصبية الاصطناعية التي تحتوي على ملايين الوحدات البالغة الصغر مقارنةً بالدماغ البشري (انظر الفصل السابع). وبالغة جدب المعلومات لأن الباحثين في الشبكات العصبية الاصطناعية لا يتجاهلون العوامل الزمنية مثل الترددات العصبية التصاعدية والمزامنات فحسب، بل يتجاهلون الفيزياء الحيوية للعمود الفقري الشجيري والمعدلات العصبية والتيارات الاتصالية العصبية ومرور الأيونات.

كل واحد من مَواطن الضعف تلك آخذ في التضاؤل. زيادة قوة أجهزة الكمبيوتر يمكِّن الشبكات العصبية الاصطناعية من تكوين المزيد من الوحدات الفردية. تُبنى نماذج ذات تفاصيل أكثر بكثير من الخلايا العصبية المفردة، والتي تعالج الوظائف الحاسوبية لكل العوامل العصبية التي ذكرناها للتو. حتى الجدب يتضاءل في الحقيقة كما يتضاءل في المحاكاة (تجمع بعض الأبحاث «العصبية» بين الخلايا العصبية الحية والرقاقات المصنوعة من السيليكون). وبقدر ما تحاكي خوارزمية شبكة كيو العميقة العمليات في القشرة البصرية والحصين (انظر الفصل الثاني)، لا شك أن الشبكات العصبية الاصطناعية ستستعير وظائف أخرى من علم الأعصاب.

وعلى الرغم من ذلك، يظل صحيحًا أن الشبكات العصبية الاصطناعية لا تشبه الدماغ من نواحٍ مهمة لا حصر لها، وبعضها لا نعرفه حتى الآن.

إخفاق الشبكة

تعود الإثارة بشأن المعالجة الموزعة المتوازية بدرجةٍ كبيرة إلى حقيقة أن الشبكات العصبية الاصطناعية (المعروفة أيضًا باسم الترابطية) قد وصلت إلى طريق مسدود قبل ذلك بعشرين عامًا. كما أشير في الفصل الأول، وردَ هذا الحكم في نقد لاذع من مارفن مينسكي، وسيمور بابرت في ستينيات القرن العشرين، وكلاهما له سمعة رنَّانة في مجتمع الذكاء الاصطناعي. بحلول ثمانينيات القرن العشرين، بدا أن الشبكات العصبية الاصطناعية لم تصل إلى طريق مسدود فحسب، بل وصلت إلى نهايتها. وفي الحقيقة، هُمشت السبرانية بوجه عام (انظر الفصل الأول). بل انتقلت كل التمويلات البحثية تقريبًا إلى الذكاء الاصطناعي الرمزي.

بدت بعض أنواع الشبكات العصبية الاصطناعية الأولى مبشِّرة إلى حد بعيد. يمكن لشبكات «بيرسيبترون» الذاتية التنظيم التي طوَّرها روزنبلات — التي كثيرًا ما يرصدها الصحفيون المفتونون بها — أن تتعلم التعرف على الأنماط بالرغم من أنها بدأت من حالة عشوائية. وقد أدلى روزنبلات بمزاعم طموحة للغاية عن إمكانيات نهجه، بحيث تناولت كل الجوانب النفسية لدى الإنسان. ومن باب التأكيد، أشار إلى تقييدات معينة. لكن «برهان التقارب» المثير للجدل كان قد ضمن تعلُّم شبكات «بيرسيبترون» أي شيء يمكن برمجتها على إنجازه. وتلك من نقاط القوة.

لكن في أواخر ستينيات القرن العشرين، قدَّم كلٌّ من مينسكي وبابرت براهينهما. استخدما الرياضيات، وأظهرا أن شبكات «بيرسيبترون» البسيطة لا يمكنها إنجاز أشياء معينة؛ إذ يتوقع المرء بحدسه أن تلك الأنظمة قادرة على إنجازها (برغم أنه بمقدور الذكاء الاصطناعي التقليدي الجميل أن ينجز تلك الأشياء بسهولة). ومثل نظرية التقارب التي وضعها روزنبلات، فإن براهينهما لا تنطبق إلا على الشبكات الأحادية الطبقات. ولكن كان «حكمهما الأولي» أن الأنظمة المتعددة الطبقات يمكن أن يغلبها الانفجار التوافقي. بعبارة أخرى، لن تتوسع شبكات «بيرسيبترون».

اقتنع أغلب علماء الذكاء الاصطناعي أن الترابطية لن تنجح. لم يأبه عدد قليل بذلك، وأجرَوا أبحاثًا عن الشبكات العصبية الاصطناعية. في الواقع، تحقق تقدمٌ كبير بشأن تحليل الذاكرة الترابطية (على يد كريستوفر لونجيت هيجنز وديفيد ويلشاو، وأخيرًا على يد جيمس أندرسون وتيوفو كوهونين وجون هوبفيلد). ولكن ظل هذا العمل طي الخفاء. لم تعرِّف المجموعات المعنية نفسها بأنهم باحثون في الذكاء الاصطناعي، وتجاهلهم الذين عرَّفوا أنفسهم بتلك الصفة بوجه عام.

بدَّد وصول المعالجة الموزعة المتوازية تلك الشكوك. فبالإضافة إلى بعض النماذج الوظيفية (مثل أداة تعلم الزمن الماضي)، كانت هناك نظريتان جديدتان للتقارب؛ الأولى تضمن أن نظام المعالجة الموزعة المتوازية القائم على معادلات بولتزمان في الديناميكا الحرارية سيصل إلى نقطة التوازن (على الرغم من أنه قد يصل بعد مدة طويلة)، والثانية تثبت أن الشبكة الثلاثية الطبقات يمكنها حل أي مسألة تُعرض عليها من حيث المبدأ. (تحذير صحي: كما هي الحال في الذكاء الاصطناعي الرمزي، غالبًا ما يكون أصعب جزء في التدريب هو تقديم مسألة بطريقة يمكن أن تندرج ضمن المدخلات في جهاز الكمبيوتر). وبطبيعة الحال، اندلعت النقاشات المثيرة. ومن ثَم تبعثر إجماع الآراء بشأن الذكاء الاصطناعي السائد.

افترض الذكاء الاصطناعي الرمزي أن التفكير الحدسي السلس يشبه الاستدلال الواعي تمامًا، ولكن من دون الوعي. وكان الباحثون في المعالجة الموزعة المتوازية يقولون إن هذه أنواع تفكير مختلفة من حيث الجوهر. كل رواد حركة المعالجة الموزعة المتوازية (ديفيد روميلهارت وجاي ماكليلاند ودونالد نورمان وهينتون) أشاروا إلى أن كلا النوعين من الأساسيات في علم النفس الإنساني. ولكن الدعاية عن المعالجة الموزعة المتوازية — وتفاعل عامة الناس تجاهها — انطوت على أن الذكاء الاصطناعي الرمزي مضيعة للوقت رغم أنه يُعتبر دراسة للعقل. لكن تغيَّر الوضع تمامًا.

كذلك الممول الأساسي للذكاء الاصطناعي — وزارة الدفاع الأمريكية — تراجعت عن موقفها. بعد اجتماع طارئ عام ١٩٨٨، اعترفت الوزارة أن تجاهلها السابق للشبكات العصبية الاصطناعية لم يكن في محله. ومن بعدها، أُغدقت الأموال على أبحاث المعالجة الموزعة المتوازية.

بالنسبة إلى مينسكي وبابرت، فهما لم يغيرا رأيهما. في الإصدار الثاني من كتابهما المناهض للشبكات العصبية الاصطناعية، قالا «إن مستقبل تعلم الآلة القائم على الشبكات [ثري] إلى أبعد الحدود». ولكنهما أصرَّا على أن الذكاء العالي المستوى لا يمكن أن ينشأ من العشوائية الخالصة، ولا من نظام غير تسلسلي بالكامل. وعليه، لا بد أن يعمل الدماغ في بعض الأحيان مثل معالج تسلسلي، وسيُضطر الذكاء الاصطناعي على المستوى البشري أن يوظف أنظمة مختلطة. تعلَّلا بأن نقدهما لم يكُن العامل الوحيد الذي أدى إلى سنوات الجدب بشأن الشبكات العصبية الاصطناعية؛ وما كان ذلك إلا لسبب واحد، وهو عدم توافر القوة الكافية لأجهزة الكمبيوتر. كما أنهما أنكرا محاولة تحويل أموال الأبحاث إلى الذكاء الاصطناعي الرمزي. بعبارة أخرى، «لم نفكر في عملنا وكأنه محاولة لقتل «سنووايت»، بل اعتبرناه طريقة لفهمها».

كانت هذه حججًا علمية معتبرة. ولكن نقدهم الأولي كان لاذعًا. (كانت المسودة لاذعة أكثر، ونُصحهم الزملاء الودودين بتخفيف حدتها وإبراز النقاط العلمية أكثر). ولا عجب من أن هذه النصيحة أثارت العاطفة. استاء مناصرو الشبكات العصبية الاصطناعية من أعماقهم بسبب عدم رؤية مشروعهم الثقافي المنشأ حديثًا. بل أحدثت المعالجة الموزعة المتوازية ضجةً أكبر. تضمن أفول الشبكات العصبية الاصطناعية الغيرة والنكاية والتعظيم الذاتي والشماتة المرحة: «أخبرناك هذا من قبل!»

كانت هذه الحلقة مثالًا بارزًا على إخفاق علمي، وهي ليست الوحيدة التي ظهرت في مجال الذكاء الاصطناعي. أُقحمت الخلافات النظرية في العواطف الشخصية والمنافسات، وكان التفكير النزيه نادرًا. انتشرت الانتقادات اللاذعة والأخبار الصحفية أيضًا. الذكاء الاصطناعي ليس مسألة تخلو من العاطفة.

الوصلات ليست كل شيء

تقول معظم حسابات الشبكات العصبية الاصطناعية إن الشيء المهم الوحيد بشأن الشبكة العصبية هو بنيتها التشريحية. ما الوحدات المتصلة بوحدات أخرى، وما مدى قوة الأوزان؟ لا شك أن هذه الأسئلة بالغة الأهمية. ومع ذلك، أظهر علم الأعصاب الحديث أن الدوائر البيولوجية يمكن أن تغير وظيفتها الحاسوبية في بعض الأحيان (ولا تزيد أو تقلل من درجة احتماليتها فحسب)، والسبب في ذلك أن المواد الكيميائية تتغلغل في الدماغ.

أكسيد النيتروز على سبيل المثال ينتشر في كل الاتجاهات، ويستمر تأثيره حتى يتحلل، وتعتمد قوة التأثير على نسبة التركيز في النقاط ذات الصلة. (قد يتفاوت معدل التحلل حسب الإنزيمات). ومن ثَم يعمل أكسيد النيتروز على جميع الخلايا داخل مساحة معينة من القشرة، سواء كانت متصلة اتصالًا متشابكًا أم لا. تختلف الديناميكيات الوظيفية للأنظمة العصبية المعنية اختلافًا كبيرًا عن الشبكات العصبية الاصطناعية «الخالصة»؛ لأن إشارات الحجم تحل محل الإشارات من نقطة إلى نقطة. عُثر على تأثيرات مماثلة لأول أكسيد الكربون وكبريتيد الهيدروجين، والجزيئات المعقدة مثل السيروتونين والدوبامين.

قد يقول مشكِّك في الذكاء الاصطناعي: «ما أكثر ما قيل في الشبكات العصبية الاصطناعية! لا توجد مواد كيميائية داخل أجهزة الكمبيوتر!» وربما يضيف: «وقد يترتب على ذلك عدم قدرة الذكاء الاصطناعي على نمذجة الأمزجة أو العواطف؛ إذ إنهما يعتمدان على الهرمونات والمعدِّلات (المهيئات) العصبية.» ذلك الاعتراض نفسه قاله عالم النفس أولريك نيسر في أوائل ستينيات القرن العشرين، وقاله الفيلسوف جون هاوجلاند بعد عدة سنوات في نقده المؤثر عن «مذهب الإدراكية». يقولان إن الذكاء الاصطناعي يمكن أن يعد نماذج للتفكير ولكن دون أي تأثير.

ومع ذلك، هذه الاكتشافات العلمية العصبية ألهمت بعض الباحثين في الذكاء الاصطناعي لتصميم شبكات عصبية اصطناعية من نوع جديد تمامًا، حيث لا تكون الوصلات هي كل شيء. في شبكات «جاس نت» (GasNet)، بإمكان بعض العقد المبعثرة عبر الشبكة أن تطلق «غازات» يجري محاكاتها. هذه العقد قابلة للانتشار، وتعدل الخصائص الجوهرية للعقد والتوصيلات الأخرى بعدة طرق، بناءً على التركيز. مقدار حجم الانتشار مهم، وكذلك شكل المصدر (إنشاء نموذج على شكل كرة مجوفة وليس مصدرًا نقطيًّا). ومن ثَم، العقدة الواحدة سيختلف سلوكها مع اختلاف الوقت. وفي حالات غازية معينة، ستؤثر عقدة في أخرى على الرغم من أنه لا يوجد رابط مباشر. أهمُّ ما في المسألة التفاعل بين الغاز والتوصيلات الكهربية داخل النظام. وبما أن الغاز لا ينبعث إلا في حالات معينة، كما أنه ينتشر ويتحلل بنسب متفاوتة، فإن هذا التفاعل معقد ديناميكيًّا.

استُخدمت تكنولوجيا «جاس نت» على سبيل المثال في تصميم «أدمغة» للروبوتات المستقلة. وجد الباحثون أن سلوكًا مُعيَّنًا قد يتضمن شبكتين فرعيتين «غير متصلتين»، ولكنهما تعملان معًا بسبب التأثيرات التعديلية. وجدوا أيضًا «مستكشف اتجاهات» قادرًا على استخدام مثلث من الورق المقوى، واتخاذه أداة مساعدة على الملاحة، ويمكن أن تتطور في شكل شبكات فرعية غير متصلة جزئيًّا. سبق أن طوَّروا شبكة متصلة بالكامل لفعل ذلك (انظر الفصل الخامس)، لكن الإصدار ذا التعديل العصبي تطور سريعًا، وامتاز بكفاءة أكبر.

لذا عدل بعض الباحثين في الشبكات العصبية الاصطناعية عن دراسة تشريح (الوصلات) إلى التعرف على الكيمياء العصبية كذلك. والآن، يمكن محاكاة قواعد التعلم المختلفة وتفاعلاتها الزمنية بأخذ التعديل العصبي بعين الاعتبار.

التعديل العصبي ظاهرة تماثلية، وليست رقمية. كذلك يجب ألا تتوقف تركيزات الجزيئات المنتشرة عن التغيير. والأكثر من ذلك، يعكف الباحثون في الذكاء الاصطناعي (باستخدام «رقاقات التكامل الشاسع النطاق» (VLSI)) على تصميم شبكات تجمع بين الوظائف التماثلية والرقمية. تجري نمذجة الميزات التماثلية بناءً على تشريح الخلايا العصبية البيولوجية وبنيتها الفسيولوجية، بما في ذلك مسارات الأيونات عبر غشاء الخلية. تُستخدم هذه الحوسبة «العصبية» على سبيل المثال لمحاكاة أنماط الإدراك والتحكم الحركي. يخطط بعض الباحثين في الذكاء الاصطناعي لاستخدام الحوسبة العصبية داخل نمذجة «الدماغ الكامل» (انظر الفصل السابع).

ذهب آخرون إلى ما هو أبعد من ذلك؛ فبدلًا من نمذجة الشبكات العصبية الاصطناعية بالسيليكون بالكامل، فإنهم يبنون (أو يطورون، انظر الفصل الخامس) شبكات تتكون من أقطاب كهربية مصغرة وخلايا عصبية حقيقية. على سبيل المثال، عند محاكاة القطب «إكس» والقطب «واي» اصطناعيًّا، فإن النشاط الناتج في الشبكة «الرطبة» يؤدي إلى تحفيز بعض الأقطاب الأخرى مثل القطب «زد»؛ ومن ثَم تنفيذ «بوابة اقتران». هذا النوع من الحوسبة في طور المهد (وقد تصوَّره دونالد ماكاي في أربعينيات القرن العشرين). ولكنه قد يكون مثيرًا.

الأنظمة المختلطة

مفهوم أنه يمكن وصف الشبكات التماثلية/الرقمية وشبكات الأجهزة/العصبية المذكورة آنفًا بأنها أنظمة «مختلطة». ولكن عادةً ما يُستخدم هذا المصطلح للإشارة إلى برامج الذكاء الاصطناعي التي تشمل كلًّا من معالجة المعلومات الرمزية والترابطية.

هذا ما وصفه مينسكي في بيانه عام ١٩٥٦ بأنه يمثل ضرورة على الأرجح، وبالفعل جمعت بضعة برامج رمزية أولية بين المعالجة المتوازية والتسلسلية. ولكن هذه المحاولات كانت نادرة. وكما رأينا، أردف مينسكي حتى أوصى بالأنظمة المختلطة الرمزية/الشبكات العصبية الاصطناعية بعد وصول المعالجة الموزعة المتوازية. لكن لم تتوالَ هذه الأنظمة من فورها (على الرغم من أن هينتون بنى شبكاتٍ تجمع بين الاتصالات المحلية والموزعة، والهدف هو تمثيل تسلسلات هرمية جزئية/كاملة مثل أشجار العائلة).

في الحقيقة، لا يزال التكامل بين المعالجة في الشبكات الرمزية والشبكات العصبية غير شائع. المنهجيتان — المنطقية والاحتمالية — مختلفتان تمامًا، لدرجة أن معظم الباحثين لديهم خبرة في منهجية واحدة فقط.

على الرغم من ذلك، طُورت بعض الأنظمة المختلطة بالفعل، وهنا يجري تمرير التحكم بين الوحدات الرمزية ووحدات المعالجة الموزعة المتوازية حسب الاقتضاء. لذلك، يعتمد النموذج على نقاط القوة التكميلية لكلا النهجين.

من بين الأمثلة على ذلك خوارزميات لعب الأتاري التي طوَّرتها شركة ديب مايند (انظر الفصل الثاني). تجمع هذه الخوارزميات بين التعلم العميق والذكاء الاصطناعي التقليدي الجميل لتعلم كيفية ممارسة مجموعة ألعاب متنوعة من ألعاب الكمبيوتر عن طريق التعلم البصري. إنها تستخدم التعلم المعزَّز؛ لا توجد قواعد يدوية، ولا يوجد سوى وحدات البيكسل والنتائج الرقمية في كل خطوة. يُنظر في العديد من القواعد/الخطط في آن واحد، والقاعدة المبشِّرة أكثر تقرر الإجراء التالي. (ستركز الإصدارات المستقبلية على الألعاب الثلاثية الأبعاد مثل «ماين كرافت»، وعلى التطبيقات مثل السيارات دون سائق).

تشمل الأمثلة الأخرى أنظمة العقل الكامل «التحكم المتكيف مع التفكير والعقلانية^⋆» و«التعلم الاتصالي المزود بتحفيز القاعدة التكيفية عبر الإنترنت» (انظر الفصل الثاني) ونظام «تعلُّم وكيل التوزيع الذكي» (انظر الفصل السادس). دُرست هذه الأنظمة دراسةً عميقة من حيث علم النفس المعرفي؛ لأنها طُورت لأغراض علمية لا لأغراض تكنولوجية.

تأخذ بعض النماذج المختلطة في اعتبارها أنماطًا محددة من علم الأعصاب أيضًا. على سبيل المثال، نشر عالم الأعصاب الإكلينيكي تيموثي شاليس — بالتعاون مع رائد المعالجة الموزعة المتوازية نورمان — نظرية مختلطة عن الإجراء المعتاد (فرط التعلم) عام ١٩٨٠، وقد نُفذت فيما بعد. تشرح النظرية أخطاءً شائعة معينة. على سبيل المثال، كثيرًا ما ينسى المصابون بالسكتة الدماغية أن الخطاب ينبغي أن يوضع في المظروف قبل لعق اللسان اللاصق، أو قد يخلدون إلى النوم عندما يصعدون إلى الطابق العلوي لتغيير ملابسهم، أو قد يأخذون الغلاية بدلًا من إبريق الشاي. تقع تلك الأخطاء مثل الترتيب والأخذ واستبدال الأشياء من وقت لآخر.

لكن لماذا؟ ولماذا يتعرض المصابون بتلف في الدماغ على وجه الخصوص لتلك الأخطاء؟ تفيد نظرية شاليس الحاسوبية بأن الإجراء المألوف ينتج عن نوعين من التحكم، يمكن أن يتوقفا أو يُهيمنا في أوقات معينة. النوع الأول تلقائي، وهو «جدولة التنافس». إنه يتضمن المنافسة (غير الواعية) بين مختلف مخططات العمل ذات التنظيم الهرمي. وينتقل التحكم إلى مخطط تجاوز تنشيطه حدًّا معينًا. النوع الآخر (التنفيذي) من آلية التحكم يتسم بالوعي. إنه يتضمن الإشراف التداولي والتعديل بشأن الآلية الأولى، بما في ذلك التخطيط وتصحيح الأخطاء. وفي منظور شاليس، فإن جدولة التنافس يجري نمذجتها باستخدام المعالجة الموزعة المتوازية، والتحكم التنفيذي يجري نمذجته باستخدام الذكاء الاصطناعي الرمزي.

يمكن رفع مستوى التنشيط لمخططات العمل عن طريق المدخلات الإدراكية. على سبيل المثال، نظرة غافلة (التعرف على الأنماط) من شخص إلى الفراش فور الوصول إلى غرفة النوم يمكن أن تحفز مخطط العمل للخلود إلى النوم، على الرغم من أن النية الأصلية (الخطة) كانت تغيير الملابس.

انطلقت نظرية شاليس عن العمل باستخدام أفكار من الذكاء الاصطناعي (لا سيما نماذج التخطيط)، وقد حظيت بصدًى يتفق مع خبرته الإكلينيكية. وقد دعمتها لاحقًا أدلةٌ من فحص للدماغ. كذلك اكتشف علم الأعصاب مؤخرًا عوامل أخرى، ومنها الناقلات العصبية، التي لها دخل في فعل الإنسان. وتلك العوامل يجري تمثيلها الآن في نماذج الكمبيوتر الحالية بناءً على تلك النظرية.

التفاعلات بين جدولة المنافسة والتحكم التنفيذي له صلة بعلم الروبوتات. العامل الذي يتبع خطة ينبغي أن يكون قادرًا على إيقافها أو تغييرها بناءً على ما يلاحظه في البيئة. تلك الاستراتيجية تميز الروبوتات التي تجمع بين المعالجة «الكائنة» و«التداولية» (انظر الفصل الخامس).

ينبغي لأي مهتم بالذكاء الاصطناعي العام أن يلاحظ أن هؤلاء القلائل من علماء الذكاء الاصطناعي الذين فكروا بجدية في البنية الحاسوبية للعقل ككل يقبلون الأنظمة المختلطة من دون تحفظ. من هؤلاء المهتمين ألين نيويل وأندرسون (ونموذجهما «التوجيه نحو النجاح وتحقيق الأهداف» و«التحكم المتكيف مع التفكير»^⋆ اللذان تناولناهما في الفصل الثاني)، وستان فرانكلين (ونموذجه «تعلُّم وكيل التوزيع الذكي» الخاص بالوعي الموضح في الفصل السادس)، ومينسكي (ونظريته «الاجتماعية» عن العقل)، وآرون سلومان (ونموذجه عن محاكاة القلق الذي تناولناه في الفصل الثالث).

باختصار، الأجهزة الافتراضية المنفذة في أدمغتنا تجمع بين نموذج التسلسل والتوازي. والذكاء البشري يتطلب تعاونًا دقيقًا بينهما. وسيفعل الذكاء الاصطناعي العام على المستوى البشري ذلك، إن تحقَّق في أي وقت.