النماذج والأساليب الإحصائية | علم الإحصاء: مقدمة قصيرة جدًّا

(١) النماذج الإحصائية: وضع اللَّبِنات معًا

استخدمتُ التعبير «نموذج إحصائي» في أماكن مختلفة في هذا الكتاب حتى الآن دون تحديد ما أعنيه. النموذج الإحصائي هو تمثيل أو وصف بسيط لشيء أو نظام يخضع للدراسة. وربما ينطوي النموذج البسيط للغاية على جانب واحد فحسب من الطبيعة. وفي الواقع، رأينا أمثلة على ذلك في الفصل الرابع عندما تناولنا توزيعات المتغيرات المفردة. وعمومًا، يمكن بالفعل أن تكون النماذج الإحصائية مفصَّلة للغاية؛ إذ ربما تحتوي على آلاف المتغيرات المرتبطة بطرق معقدة للغاية. وعلى سبيل المثال، سوف يستخدم الاقتصاديون الذين يحاولون توجيه قرارات أي بنك مركزي مثل هذه النماذج الكبيرة.

ثمة منظور مهمٌّ فيما يخص النماذج يتمثل في التساؤل ما إذا كانت هذه النماذج تمثل الواقع الأساسي على نحو صحيح؛ أي ما إذا كانت «حقيقية» أم لا. في الواقع، هذا هو المنظور الذي اتخذناه سابقًا في هذا الكتاب عندما سألنا ما إذا كانت قيمة المعلمة المقترحة هي القيمة الحقيقية أم لا. ومع ذلك، يقر المنظور الأكثر تطورًا أنه لا يوجد نموذج — إحصائي أو غير ذلك — يمكن أن يأخذ في الاعتبار كل التأثيرات والعلاقات الممكنة في العالم الحقيقي. وهذا المنظور هو الذي دفع الإحصائي البارز جورج بوكس للتأكيد على أن «جميع النماذج خاطئة، وإن كان بعضها مفيدًا.» إننا نبني نماذج لسبب؛ وهو مساعدتنا في الفهم والتنبؤ واتخاذ القرار، وما إلى ذلك. ورغم أننا ندرك أن نماذجنا تمثل تبسيطًا ضروريًّا للتعقيد الرهيب للعالم، فإننا إذا ما اخترناها جيدًا فسوف تمكننا من القيام بهذه الأمور. أما إذا اخترناها على نحو سيئ، فلن نفهم، وسوف تُخفِق توقُّعاتنا، وسوف تؤدي قراراتنا إلى أخطاء؛ إذن، هدفنا هو بناء نماذج جيدة بما فيه الكفاية لتحقيق غرضنا.

ويمكن تقسيم النماذج الإحصائية على نحو ملائم إلى نوعَيْن، يُسمَّيَان غالبًا «النماذج الآلية» و«النماذج التجريبية». يَستَنِد النموذج الآلي على بعض النظريات الأساسية الصلبة لكيفية ارتباط الأشياء؛ على سبيل المثال، ربما تُخبِرنا نظريةٌ ما في الفيزياء كيف أن سرعة سقوط الأجسام تزيد مع زيادة الزمن الذي تقع فيه. أو ربما تخبرنا نظرية أخرى حول كيفية انتشار العقاقير في أنحاء الجسم. في كلتا هاتين الحالتين، سوف تستند النماذج إلى نظريات حول كيفية عمل الأشياء فعليًّا؛ في الواقع، سوف تستند النماذج على المعادلات الرياضية التي تَصِفُ هذه النظريات، والبيانات التي نجمعها لتقييم نماذجنا سوف تكون قِيَم المتغيرات المستخدمة في هذه النظريات، مثل السرعة والزمن (في حالة سقوط الشيء) والتركيز والزمن (في حالة انتشار العقاقير)؛ ومن ثَمَّ النماذج الآلية هي طرق رياضية مباشِرة لوصف النظريات.

في المقابل، النماذج التجريبية هي مجرد محاولات لتوفير ملخصات ملائمة للجوانب المهمة من البيانات المرصودة. قد لا يكون لدينا أي نظرية تقول إن الأجسام الساقطة تزيد سرعتها مع مرور الزمن، ولكننا قد نلاحظ وجود علاقة بين الزمن والسرعة، وعلى أساس هذا، نُخمِّن وجود علاقة طردية. وإذا لم يوجد أي قاعدة نظرية أساسية لهذه العلاقة المقترحة، فإن النموذج يكون نموذجًا تجريبيًّا.

النماذج الآلية واسعة الانتشار في العلوم الفيزيائية وفي مجالات مثل الهندسة، فيما تميل العلوم الاجتماعية والسلوكية إلى الاستفادة على نحو أكبر من النماذج التجريبية. ومع ذلك فمن الواضح وجود تداخل كبير؛ إذ إن طبيعة النموذج تعتمد على ما يجري نَمْذجته ومدى سهولة فهمه؛ فالاقتصاد — الذي يُعَدُّ علمًا اجتماعيًّا — مليء بالنماذج الآلية المعتمِدة على نظريات حول كيفية ارتباط العوامل الاقتصادية. وعمومًا، ربما من الإنصاف القول إنه في المراحل الأولية لاستكشاف ظاهرةٍ ما، فإن النماذج التجريبية تكون أكثر شيوعًا؛ إذ إن المرء يبحث عن الاتساق والأنماط في مجموعة الملاحظات. وفي مراحل لاحقة، عندما يكون الفهم قد ازداد، تُصبِح النماذج الآلية أكثر أهمية. وعلى أي حال، كما توضح نماذجنا للأجسام الساقطة، يمكن بناء نموذج معين على أنه نموذج تجريبي ثم يصبح آليًّا عندما يزداد فهمنا للظاهرة.

أحيانًا ما يكون من المفيد التمييز بين مختلف الاستخدامات الممكنة للنماذج الإحصائية. أحد أمثلة هذا التمييز يكون بين «الاستكشاف» و«التأكيد»؛ ففي الاستكشاف، نبحث عن العلاقات أو الأنماط؛ بينما في التأكيد، نهدف إلى معرفة ما إذا كانت البيانات تدعم تفسيرًا مقترحًا أم لا؛ لذلك، على سبيل المثال، في دراسة استكشافية ربما نبحث عن المتغيرات التي ترتبط معًا ارتباطًا وثيقًا. فربما يأخذ متغير واحد قيمة عالية كلما فعل ذلك متغير آخر، أو ربما تأخذ مجموعات من المتغيرات قيمًا متشابهة جدًّا مع أشياء مختلفة، وما إلى ذلك. من ناحية أخرى، ربما نستخدم البيانات في الدراسات التأكيدية لتقدير معلمات نموذج إحصائي مقترح وإجراء اختبار إحصائي لمعرفة ما إذا كان التقدير قريبًا بما فيه الكفاية ممَّا توقعتْه نظريتنا. أصبحتِ الأساليب الإحصائية لاستكشاف البيانات ذات أهمية متزايدة في السنوات الأخيرة، مع تراكم مجموعات من البيانات أكبر وأكبر. وينطبق هذا على التطبيقات العلمية (مثل فيزياء الجسيمات وعلم الفلك)، وكذلك التطبيقات التجارية (مثل قواعد البيانات التي تحتوي على تفاصيل المشتريات من المتاجر، أو المكالمات الهاتفية، أو بيانات تدفق النقر على الإنترنت).

ثمة تمييز آخر مهم في النمذجة الإحصائية بين «الوصف» و«التنبؤ»؛ فعند وصف مجموعة من البيانات، يتمثل الهدف في تلخيصها بطريقة مريحة؛ على سبيل المثال، إذا كانت مجموعة البيانات تتكون من ملاحظات لعشرة متغيرات (الطول والوزن والزمن المستغرق في التوجه للعمل، وما إلى ذلك) لكل شخص من مليون شخص، فسنحتاج لكي نبدأ في فهمها إلى تقليل حجمها إلى حجم معقول؛ على سبيل المثال، يمكننا تلخيصها من خلال المتوسط الحسابي والانحرافات المعيارية لكل متغير، وكذلك عن طريق قياسات مدى ترابطها. حينها سيكون لدينا بعض الأمل في فهْمِ ما يجري حيث إننا وصفنا الخصائص العامة للبيانات على نحو مريح. وبالإشارة إلى هذا، كما رأينا في الفصل الثاني، فإن هذه الملخصات الوصفية لا تخلو من المخاطر. فإنها، بحكم طبيعتها، تبسط التعقيد الهائل لمجموعة البيانات بأكملها؛ لذلك يجب أن ننتبه لاحتمال أنَّ وصفنا الموجز أغفل شيئًا مهمًّا؛ على سبيل المثال، ربما فشل نموذجنا في الوضع في الاعتبار حقيقةَ وجود مجموعتَين وراثيتين متميزتين في المجموعة الكاملة الخاضعة للدراسة؛ لذلك يلزم وجود نموذج أكثر تفصيلًا لتمثيل ذلك.

أما هدفنا في التنبؤ فهو استخدام بعض المتغيرات للتنبؤ بقيم متغيرات أخرى؛ على سبيل المثال، قد يكون لدينا مجموعة من البيانات التي تبيِّن تفاصيل النظام الغذائي في الطفولة لعينة من الأشخاص وطولهم بعد البلوغ. يمكننا باستخدام هذه البيانات بناء نموذج يربط الطول بعد البلوغ بالنظام الغذائي في الطفولة، ثم نستخدم النموذج للتنبؤ بالطول المستقبلي المحتمل لطفل يتبع نظامًا غذائيًّا معينًا. لاحظ أن جانبًا أساسيًّا من البيانات لازمٌ لهذه النماذج؛ إذ إننا نحتاج لقِيَمٍ لكلٍّ من المتغيرات المتنبِّئة والمتغير المتنبَّأ به من عينتنا. وسوف يتضح أن هذا تمييز مهم جدًّا بين النماذج التنبُّئية والنماذج الوصفية، كما سنرى فيما يلي:

ومرة أخرى، ليس التمييز واضحًا دائمًا وضوح الشمس، فربما نكون ببساطة مهتمِّين بوصف العلاقة بين النظام الغذائي في الطفولة والطول بعد البلوغ، مع عدم وجود نية لاستخدام النموذج للتنبؤ بأحدهما عن طريق الآخر.

يوجد نوع آخر مهم من التنبؤ هو «التوقع»، وفيه نستخدم بيانات من الماضي لبناء نموذج يمكن استخدامه كأساس للتنبؤ بالقيم المحتملة لملاحظات لم تُرصد بعدُ؛ على سبيل المثال، ربما نفحص النمط الشهري لمبيعات أجهزة التلفاز على مدى السنوات الخمس الماضية، ونقدِّر استقرائيًّا نزعةَ المبيعات والتفاوت الموسمي من أجْل توقُّع المَبِيعات المحتملة خلال الاثني عشر شهرًا التالية.

للنماذج الإحصائية استخدامات أخرى أيضًا. تعرفنا سريعًا على دورها في اتخاذ القرار في الفصل الخامس، كما رأينا أيضًا في الفصل عينه كيف قُدِّرت معلمات التوزيعات. يتم ذلك عن طريق تحديد مقياس للتناقض بين البيانات المرصودة والتوزيع النظري، ثم اختيار قيمة المعلمة المقدَّرة التي تقلل قياس التناقض لأدنى حد. ويستمد مقياس شائع للتناقض من الإمكان، والذي يقيس مدى احتمال أن بيانات مثل البيانات المرصودة ستنشأ إذا أخذتِ المعلمات قيمًا مختلفة متعددة. والآن، بما أن التوزيعات هي أشكال بسيطة فحسب من النموذج، فإن المبادئ نفسها بالضبط تنطبق عند تجربة نماذج أكثر تفصيلًا (مثل تلك المذكورة فيما يلي). ومع ذلك، تنشأ ظاهرة غريبة بينما تصبح النماذج أكثر تفصيلًا.

سأذكر مثالًا بسيطًا للتوضيح؛ لنفترض أننا نريد بناء نموذج للتنبؤ بالرواتب الأولى للخريجين، استنادًا إلى البيانات التي تَصِف دراستهم، والمواد التي درسوها في الجامعة، ونتائج امتحاناتهم، وأيضًا عوامل مثل العمر والجنس ومكان الإقامة، وما إلى ذلك. افترض أننا جمعنا عينة مكونة من مائة من الخريجين الجدد وجمعنا البيانات منها. عمومًا، إذا حاولنا أن نبني توقعاتنا على عدد قليل جدًّا من المتغيرات (مثل العمر فقط) فإننا لن نحصل على تنبؤات دقيقة للغاية؛ فالعمر، في حد ذاته، وحده لا يحتوي على معلومات كافية للسماح لنا بأن نعرف كم سيكون راتب الشخص المتخرِّج في الجامعة بدقة متناهية. لتحسين دقة التنبؤ فإننا بحاجة إلى إضافة المزيد من العوامل المتنبِّئة (مثل استخدام العمر ومجال الدراسة ودرجات الامتحان للتنبؤ براتب الشخص المتخرج). ومع ذلك — وهنا تبرز المعضلة — إذا أضفنا عددًا أكبر مما يلزم من المتغيرات المتنبِّئة فإن دقة التنبؤ للمجموعة الكاملة الخاضعة للدراسة ستقل؛ فعلى الرغم من أننا نستخدم مزيدًا من المعلومات حول الخريجين، فإن نموذجنا ليس جيدًا.

يبدو هذا مناقضًا للمنطق؛ فكيف يمكن لإضافة «مزيد» من المعلومات أن تؤدي إلى تنبؤات «أسوأ»؟

الجواب مراوغ، ويُطلَق عليه أسماء مختلفة، منها الاسم المُعبِّر «الإفراط في المطابَقة». لفهم ذلك، دعنا نتراجع خطوة إلى الوراء ونتدبر هدفنا الحقيقي. إن هدفنا «ليس» الحصول على أفضل التنبؤات الممكنة للخريجين المائة في عيِّنتنا؛ فنحن نعلم بالفعل رواتبهم الأولى، ولكنَّ هدفنا هو الحصول على أفضل التنبؤات الممكنة بالنسبة للخريجين الآخرين؛ أي إن هدفنا هو «التعميم» من العينة الموجودة لدينا. والآن، بإضافة المزيد والمزيد من المتغيرات المتنبِّئة، فإننا بالتأكيد نضيف معلومات سوف تمكِّننا من التنبؤ برواتب الأشخاص الموجودين في عينتنا بالفعل على نحو أكثر دقة. ولكن العينة ليست سوى عينة؛ أي إنها لا تمثل رواتب المجموعة بأكملها على نحو كامل. وبعد فترة من الوقت، وبينما نواصل إضافة المزيد من المتغيرات المتنبئة، نبدأ في التنبؤ بجوانب من البيانات خاصة بالعينة وحدها؛ فهي ليست سمات تنطبق على المجموعة الكلية بأكملها.

تنطبق هذه الظاهرة على جميع النماذج الإحصائية؛ فالنماذج يمكن أن تكون مفرطة في التعقيد، بحيث تتطابق مع البيانات المرصودة جيدًا جدًّا بالفعل، ولكنها تفشل في التعميم على أشياء أخرى مستمَدَّة من التوزيع نفسه؛ وهذا يعني أنه لا بد من وضع استراتيجيات لاختيار نماذج بدرجة تعقيد مناسبة؛ فإذا كانت النماذج مفرطة التبسيط، فإننا نخاطر بفقدان قدرتها على التنبؤ، وإذا كانت مفرطة التعقيد، فإننا نخاطر بالإفراط في المطابقة. يشكل هذا المفهوم أساس مبدأ «شفرة أوكام»، الذي ينص على أن «النماذج ينبغي ألَّا تكون أكثر تعقيدًا مما هو ضروري» (ينسب إلى الراهب الفرنسيسكاني ويليام الأوكامي من القرن الرابع عشر).

ولمشكلة الإفراط في المطابقة أهمية خاصة في مجال علم الإحصاء الحديث؛ فقبل ظهور أجهزة الكمبيوتر، وقبل أن يصبح مألوفًا مطابقةُ النماذج المعقدة مع أعداد كبيرة من المعلمات، كان خطر الوقوع في الإفراط في المطابقة أقل.

(٢) الأساليب الإحصائية: تطبيق الإحصاء

الهدف من هذا الجزء هو تحديد بعض الفئات المهمة من الطرق الإحصائية، وإظهار كيفية ارتباط بعضها ببعض، وتوضيح أنواع المشاكل التي يمكن استخدامها لحلها.

لنبدأ بالإشارة إلى أننا نهتم في كثير من الأحيان بالعلاقات بين أزواج المتغيرات. هل خطر الإصابة بالنوبات القلبية يزداد مع زيادة مؤشر كتلة الجسم؟ هل الاحترار العالمي ناتج عن النشاط البشري؟ هل إذا ارتفعت البطالة ينخفض التضخم؟ هل تحسين مزايا السلامة في السيارة يزيد مبيعاتها؟ وما إلى ذلك. إذا كان متغيران مرتبطين بحيث إن القِيَم الأكبر لأحدهما تَمِيل إلى الارتباط بالقِيَم الأكبر للآخر، يقال إن المتغيرين «مرتبطان إيجابيًّا». وإذا كانت القيم الأكبر لأحدهما تَمِيل إلى الارتباط بالقيم الأصغر للآخر، يقال إنهما «مرتبطان سلبيًّا». والطول والوزن لدى البشر مرتبطان إيجابيًّا؛ فالأشخاص الأطول يميل وزنهم إلى أن يكون أثقل. لاحظ أن العلاقة ليست علاقة دقيقة؛ إذ يوجد أشخاص طوال القامة أخفَّاء الوزن (الأشخاص النِّحَاف) وأشخاص قصار القامة ثقال الوزن. ولكن في المتوسط عمومًا، يرتبط طول القامة بالوزن الأثقل. يمكننا أيضًا أن نرى من هذا المثال أن محض الارتباط بين متغيرين لا يعني أن أحدهما يسبب الآخر؛ فإلزام شخصٍ ما باتباع نظام غذائي مكون من كعك بالكريمة لزيادة وزنه من غير المرجح أن يؤدي إلى زيادة طوله، ووضعه على مِخلعة لإطالة جسده من غير المرجح أن يزيد وزنه. في الواقع، كان الخلط بين الارتباط والسببية مصدرًا لكثير من سوء الفهم على مر السنين. من المرجح أن تُظهِر عينة عشوائية من الأطفال الذين تتراوح أعمارهم بين ٥ و١٦ سنة وجود ارتباط إيجابي واضح بين القدرة على القراءة والقدرة على القيام بعمليات حسابية. ولكن من غير المرجح أن تسبب إحداهما الأخرى، بل المرجح أن التقدم في العمر هو السبب الشائع لكلتيهما؛ فالأطفال الأكبر سنًّا أفضل في القراءة والحساب.

ثمة رقم واحد يمكن استخدامه لتمثيل قوة الارتباط، وهو «معامل الارتباط». ويوجد العديد من الطرق التي يمكن قياس هذه القوة بها، تمامًا مثلما رأينا أنه توجد طرق مختلفة لتعريف «المتوسط» و«التشتت». ومع ذلك، يوجد معيار عام لمعاملات الارتباط بأنها تَقَع بين −١ و+١؛ بحيث يعنى ٠ أنه لا يوجد ارتباط، ويعنى +١ وجود ارتباط إيجابي تام، ويعني −١ وجود ارتباط سلبي تام. ويعني الارتباط «التام» بين متغيرين «س» و«ص» أنك إذا كنتَ تعرف قيمة «س» فإنك تعرف قيمة «ص» بالضبط.

الارتباط علاقة متناظرة؛ فإذا كان الطول يرتبط بالوزن، فإن الوزن يرتبط بالطول، وقوة هذا الارتباط تظل نفسها مَهْمَا كانت الناحية التي ننظر إليها منها. وفي المقابل، نهتم في بعض الأحيان بالعلاقات غير المتناظرة بين المتغيرات؛ على سبيل المثال، ربما نرغب في معرفة مقدار الفرق في الوزن — في المتوسط — الذي يرتبط بوجود فارق في الطول يبلغ عشرة سنتيمترات. والإجابة على هذا النوع من الأسئلة تأتي من خلال طريقة إحصائية تسمى «تحليل الانحدار». ويخبرنا نموذج الانحدار بمتوسط قيمة المتغير «ص» لكل قيمة للمتغير «س». في المثال السابق، «انحدار الوزن على الطول» سيخبرنا بمتوسط الوزن الذي سيصل إليه الأشخاص عند كل طول. ويتضح هذا في الشكل ٦-١؛ حيث يمثَّل الوزن على المحور الرأسي، والطول على المحور الأفقي. وتوضح كل نقطة سوداء زوج الوزن/الطول لشخص من العينة. يبدو واضحًا الآن من هذا الشكل أننا لم نرصد قيمًا لجميع الأطوال الممكنة؛ على سبيل المثال، لا يوجد أي نقطة بيانات عند الطول الذي يبلغ بالضبط ٦ أقدام. إحدى طرق التغلب على هذه الصعوبة — بناء نموذج يعطينا متوسط وزن لكل قيمة من الطول — هي أن نفترض وجود علاقة بسيطة بين الطول ومتوسط الوزن. وهذه العلاقة البسيطة جدًّا هي علاقة خط مستقيم؛ ويَرِدُ مثال لهذا الخط في الشكل. وبالنسبة لأي طول معين، يسمح لنا هذا الخط بالبحث عن القيمة المقابلة من متوسط الوزن؛ فعلى سبيل المثال، وعلى وجه التحديد، فإنه يعطينا قيمة لمتوسط وزن الأشخاص الذين يبلغ طولهم ٦ أقدام.

وثمة عدة نقاط ينبغي توضيحها فيما يخص هذه الطريقة.

شكل ٦-١: رسم خط وسط البيانات.

أولًا: إنها تعطي «متوسط» الأوزان عند كل طول. وهذا أمر معقول؛ إذ إنه في الحياة الواقعية، حتى الأشخاص ذوو الطول نفسه يمكن أن تتباين أوزانهم.

ثانيًا: نحن بحاجة إلى إيجاد طريقةٍ ما لتحديد الخط الذي نتحدث عنه بالضبط. يتضمن الشكل خطًّا واحدًا، ولكن كيف اخترنا هذا الخط وليس غيره؟ تتحدد الخطوط على نحو فريد عن طريق مَعلمتين — تقاطعهما (في هذا الشكل قيمة الوزن التي يتقاطع عندها الخط مع محور الوزن) وميلهما — لذلك نحن بحاجة إلى إيجاد وسيلة لاختيار هاتين المعلمتين أو تقديرهما. نعرف بالفعل طريقة تقدير المعلمة؛ فقد تناولناها في الفصل الخامس. ولتقدير المعلمات نختار تلك القيم التي تقلل من قدر التناقض بين النموذج والبيانات المرصودة. وبالنسبة لأي زوج معين (الوزن والطول) من البيانات، فإن أحد مقاييس التناقض هو مربع الفرق (مرة أخرى، السبب في كونه مربعًا هو جعل الأرقام موجبة) بين الوزن المرصود والوزن المتوقع عند هذا الطول. ويتمثل مقياس التناقض الكلي المعتمد على هذا في مجموع مربعات الفروق بين الأوزان المرصودة والأوزان المتوقَّعة عند الأطوال الواردة في البيانات. وبعد ذلك نقدر التقاطع والانحدار باختيار تلك القيم التي تقلل مجموع مربعات الفروق لأدنى درجة. وبما أنها تقلل (مجموع مربعات) الفروق بين القيم المرصودة والمتوقعة للأوزان في البيانات، فإن «خط انحدار المربعات الصغرى» هذا ينتِج أفضل تنبؤ لمتوسط الوزن عند أي قيمة للطول نختارها.

النقطة الثالثة: هي أنه على الرغم من أن هذا الافتراض بوجود علاقة خط مستقيم قد يبدو اعتباطيًّا إلى حدٍّ ما، فإنه مُبرَّر قليلًا. لماذا نختار خطًّا مستقيمًا، وليس خطًّا منحنيًا؟ دون الخوض في التفاصيل هنا، من الممكن تقديم منحنيات بدرجات متفاوتة بحيث يمكن أن يكون للخط الذي يبين العلاقة بين الطول ومتوسط الوزن أشكال أكثر تعقيدًا؛ فربما على سبيل المثال يزداد بسرعة أكبر عند الأطوال الأدنى من ازدياده عند الأطوال الأعلى. ونفعل ذلك من خلال جعل النموذج أكثر تعقيدًا، عن طريق إدخال معلمات إضافية بالإضافة إلى التقاطع والميل.

سعى مثال انحدار الطول/الوزن للتنبؤ بمتوسط الوزن من خلال متغير متنبئ واحد فقط هو الطول، لكن يمكننا أيضًا إدخال عوامل متنبئة محتملة أخرى من أجل تحقيق توقعات أكثر دقة؛ على سبيل المثال، يمتلك الرجال والنساء أشكال جسم مختلفة، بحيث إنه عند طول معين، ربما يكون الاختلاف في الأوزان بسبب نوع الجنس على نحو كبير؛ لذا يمكننا تضمين نوع الجنس أيضًا باعتباره عاملًا متنبئًا. ويمكننا مواصلة تضمين متغيرات أخرى نظن أنه من المرجح أن ترتبط بالوزن. لكن لا ينبغي أن نتمادى كثيرًا إذا كانتِ الملاحظات تتعلق بعدد محدد من الأشخاص فحسب، وإلَّا فسوف يتميز نموذجنا مرة أخرى بالإفراط في المطابقة مع البيانات؛ ولذا فإننا قد لا نرغب في تضمين كافة المتغيرات التي يمكن أن نفكر فيها، وإنما ندرج وحسب مجموعة فرعية منها.

بصفة عامة، ثمة أسباب أخرى أيضًا قد تدفعنا إلى الرغبة في تضمين مجموعة فرعية فقط من المتغيرات المتنبئة المحتملة؛ على سبيل المثال، ربما يكون قياس المتغيرات المتنبئة الإضافية مكلفًا، أو يستغرق وقتًا طويلًا؛ ولذا فإننا سوف نريد أن نُبقِي العدد عند أدنى حد ممكن. لهذه الأسباب وغيرها، طور الإحصائيون طرقًا للعثور على مجموعات فرعية جيدة من المتغيرات؛ حيث تعني كلمة «جيدة» أنها تنتج أفضل التنبؤات.

تربط نماذج الانحدار متغير ناتج أو متغير إجابة بواحد أو أكثر من المتغيرات المتنبِّئة. هذا نوع شائع جدًّا من المشكلات، وطُورت نماذج إحصائية أخرى للتعامل مع حالات مماثلة تختلف في بعض النواحي عن حالة الانحدار المستقيم؛ على سبيل المثال، في «تحليل البقاء» تُعرَف قيمة متغير الإجابة لبعض الحالات فقط، ويُعرف فقط أن قيمتها لحالات أخرى تتجاوز قيمةً ما. ينشأ هذا على نحو أكثر شيوعًا (على الرغم من أنه ليس في هذه الحالة وحسب) عندما يكون متغير الإجابة فترة زمنية؛ ومن ثَمَّ، فإننا قد نرغب في معرفة الفترة الزمنية التي سيظل فيها المريض على قيد الحياة (ومن هنا جاء اسم هذه التقنية) أو طول الفترة الزمنية التي سيبقى فيها مكون من النظام قبل أن يحتاج إلى الاستبدال. وبأخذ الحالة الأولى كمثال للتوضيح، ربما تُبيِّن مجموعة البيانات المتوفِّرة لدينا أن أحد المرضى عاش خمسة أشهر، وعاش آخر شهرين فقط، وعاش ثلاثة آخرون أحد عشر شهرًا، وهكذا. ومع ذلك، ربما لم نتمكن لأسباب عملية من الانتظار حتى يموت آخِر مريض في الدراسة (الفترة التي قد تصل إلى أعوام)؛ لذلك توقفنا عن تسجيل الملاحظات. كل ما نعرفه عن بعض المرضى هو أنهم عاشوا فترة «أطول» من الوقت بين بدء رصد الملاحظات والتوقف عن رصدها. توصف هذه البيانات بأنها «مبتورة»، ولتوضيح التعقيدات التي تسببها، تأمَّلْ طريقة حساب متوسط فترة البقاء على قيد الحياة؛ فَلِحِساب المتوسط، نحتاج إلى جمع الفترات الزمنية المرصودة والقسمة على العدد الموجود. إننا لم نرصد في الواقع فترات البقاء على قيد الحياة للمرضى المبتورة بياناتهم، ولا يمكننا تضمينهم في الحساب. ولكن إذا أغفلناهم، فإننا سوف نُغفِل على وجه التحديد القِيَم الأكبر؛ لذلك سوف يكون تقديرنا متحيزًا إلى الأسفل. وعلى النقيض، إذا ضمَّنَّاهم، باستخدام فترات الملاحظة، فإن النتيجة تعتمد على وقت اختيارنا للتوقف عن رصد الملاحظات. وبما أن هذا غير ملائم أيضًا، فقد وُضعت أساليب أكثر تطورًا للتعامل مع البيانات المبتورة.

ثمة نسخة أخرى من مشكلة وجود متغير ناتج واحد مرتبط بواحد أو أكثر من المتغيرات المتنبئة تحدث في «تحليل التباين». يستخدم هذا التحليل على نطاق واسع في مجال الزراعة، وعلم النفس، ومراقبة الجودة الصناعية والتصنيع، وغيرها من المجالات. في تحليل التباين، تكون المتغيرات المتنبئة صريحة؛ وهذا يعني أن كلًّا منها يتخذ بضع قِيَم فحسب؛ على سبيل المثال، في تصنيع بعض المواد الكيميائية ربما نكون قادرين على السيطرة على درجة الحرارة والضغط والمدة، ويكون لدينا ثلاثة إعدادات لكلٍّ منها: منخفضة ومتوسطة وعالية. قابلنا مثل هذا الموقف عندما ناقشنا التصميم التجريبي في الفصل الثالث، وغالبًا ما يستخدم تحليل التباين لتحليل التجارب. ورغم تقديمه عادة على أنه مختلف عن تحليل الانحدار، فإنه من الممكن إعادة صياغته في صورة نموذج انحدار. وكلاهما حالتان خاصتان من فئة أكبر من النماذج تُسمَّى «النماذج الخطية».

وُسِّعت النماذج الخطية نفسها بطرق مختلفة. أحد التعميمات المهمة للغاية يتمثل فيما يسمى «النماذج الخطية المعمَّمة». في الانحدار وتحليل التباين، يكون الهدف هو التنبؤ بالقيمة المتوسطة للإجابة عند كل قيمة عامل متنبئ. وتوسِّع النماذجُ الخطيةُ المعممةُ هذا من خلال السماح بكون غيرها من معلمات توزيع الإجابة، وليس المتوسط فقط، خاضعة للتنبؤ.

مع ذلك، تظهر نسخة أخرى من بنية الناتج/المتنبئ عندما تكون الإجابة نفسها قاطعة؛ على سبيل المثال، ربما تكون الإجابة عبارة عن قائمة من التشخيصات الطبية الممكنة، وربما تكون العوامل المتنبئة مزيجًا من الأعراض (قد تكون مدرجة على أنها حاضرة أو غائبة) ونتائج التحاليل الطبية. وتندرج هذه الأساليب تحت اسم عام هو «التصنيف المراقَب». وتحدث الحالة الخاصة الأهم من هذه النماذج عندما يكون متغير الإجابة ثنائيًّا؛ أي يأخذ قيمتين ممكنتين فحسب؛ مثل مريض/صحيح، مخاطرة جيدة/مخاطرة سيئة، مربح/عديم الجدوى، الكلمة المنطوقة «نعم»/الكلمة المنطوقة «لا» (في برامج التعرف على الكلام)، بصمة مصرح بها/بصمة غير مصرح بها (في أنظمة المقاييس الحيوية للتعرف على الأشخاص)، صفقة احتيالية/صفقة شرعية، وما شابه ذلك. وفي كل حال، فإن الهدف سيكون بناء نموذج يُمكِّننا من تحديد الفئة الأكثر احتمالًا للحالات الجديدة، مستخدمًا فحسب المعلومات في المتغيرات المتنبئة.

طور عدد كبير من الأدوات الإحصائية لمثل هذه الحالات. وكان من بين أول الأدوات «تحليل التمايز الخطي»، الذي طور في ثلاثينيات القرن العشرين، ولكنه لا يزال مستخدمًا على نطاق واسع للغاية حتى اليوم، سواء بشكله الأساسي أو بتوسيعاته الأكثر تفصيلًا. وتوجد طريقة أخرى تَحظَى بشعبية كبيرة في بعض المجالات — مثل الطب وإدارة قِيمة العُمَلاء — هي «تحليل التمايز اللوجستي». وهذا نسخة من الانحدار اللوجستي، وهو نوع من النماذج الخطية المعممة؛ لذلك يظهر الصلة الوثيقة بين طبقات الأدوات. في الواقع، يمكن اعتبار الانحدار اللوجستي أبسط أنواع «الشبكات العصبية». تُسمَّى الشبكات العصبية بهذا الاسم لأنها قُدِّمت في الأصل كنماذج لطريقة عمل المخ؛ إلَّا أنه في الوقت الحاضر تَركَّز العمل في هذا المجال كثيرًا على خصائصها الإحصائية كنظم للتنبؤ، بغض النظر عما إذا كانت تشكِّل نماذج جيدة للنظم الطبيعية أم لا.

وتوجد نماذج أخرى للتصنيف المراقب تشمل أسلوب «التصنيف الشجري» وطريقة «الجار الأقرب». يقسِّم النموذج الشجري المتغيرات إلى نطاقات، ويصنف نقاطًا جديدة وفقًا لمجموعة النطاقات التي تقع فيها. على سبيل المثال، ربما يُظهِر تحليل البيانات أن الأشخاص الذين تزيد أعمارهم عن ٥٠ عامًا ويعيشون نمط حياة قليل الحركة ولديهم مؤشِّر كتلة جسم أكبر من ٢٥؛ معرَّضون لخطر الإصابة بأمراض القلب. مثل هذه النماذج يمكن أن تُمثَّل في صورة بنية شجرية؛ ومن هنا جاءت التسمية. في أسلوب الجار الأقرب، نجد الكائنات القليلة الموجودة في مجموعة البيانات التي تكون أكثر شبهًا (أو «أكثر قربًا») إلى الكائن الجديد الخاضع للتصنيف؛ حيث يتحدَّد التشابه من ناحية المتغيرات المتنبِّئة. بعدها يوضع الكائن الجديد ببساطة في الفئة نفسها كما هي حال غالبية هذه الكائنات المتشابهة كثيرًا.

ويسمى التصنيف المُراقَب بهذا الاسم لأنه يحتاج شخصًا (أي «مراقبًا») لتحديد تسميات فئات عينة البيانات، والتي يمكننا من خلالها بناء قاعدة التصنيف لتطبيقها على الكائنات الجديدة. ومع ذلك، لا يوجد في مسائل التصنيف الأخرى أي تسمية للفئات، والهدف هو ببساطة تقسيم الكائنات إلى فئات طبيعية، أو ربما فئات ملائمة. ويمكننا القول إن الهدف من ذلك هو تحديد الفئات؛ ففي الطب على سبيل المثال، ربما تكون لدينا عينة من المرضى لكلٍّ منهم تفاصيل عن أنماط الأعراض ونتائج التحاليل، وربما نظن أن عدة أنواع مختلفة من الأمراض ممثلة في العينة. سيكون هدفُنا حينها معرفةَ ما إذا كان المرضى يشكِّلون مجموعات مختلفة من منظور الأعراض ونتائج التحاليل. ويطلق على الأدوات الإحصائية لاستكشاف هذه التجمعات اسم «التحليل العنقودي». كان لهذه الأساليب فائدة كبيرة في تحديد الفرق بين الاكتئاب الأحادي القطب والثنائي القطب، وتستخدم في مجموعة كبيرة من المجالات الأخرى، منها — على سبيل المثال — إدارة قيمة العملاء والتسويق؛ حيث تكمن فائدتها في تحديدِ ما إذا كان يوجد أنواع مختلفة من العملاء أم لا.

في التحليل العنقودي، لا يوجد متغير «ناتج» ولا «إجابة». بدلًا من ذلك، فإن الهدف هو مجرد وصف البيانات على نحو سهل. وثمة أدوات إحصائية أخرى لها الهدف نفسه، على الرغم من أنها تسعى إلى وصف من نوع مختلف تمامًا؛ فعلى سبيل المثال، «النموذج البياني» هو وصف مبسط للعلاقات بين عدة متغيرات — وربما عدد كبير منها — استنادًا إلى افتراض أن العلاقات بين العديد من المتغيرات تسببها علاقات وسيطة مع متغيرات أخرى. وقد رأينا مثالًا بسيطًا جدًّا على هذا سابقًا؛ فربما كان الارتباط الإيجابي بين القدرة على القراءة والقدرة الحسابية لدى الأطفال نتيجة للعلاقة بين كلا هذين المتغيرين والعمر.

يمكن التوسع في هذه النماذج من خلال افتراض أن بعض العلاقات سببها المتغيرات «الكامنة» غير المقيسة التي تتعلق ببعض المتغيرات المرصودة؛ ومن ثَمَّ تحفز علاقة واضحة بينهما؛ فعلى سبيل المثال، ربما نلاحظ أن أسعار أسهم بعض الشركات ترتفع أو تنخفض معًا. إحدى طرق تفسير هذا قد تتمثل في تخمين وجود بعض المتغيرات الخفية (بعض جوانب الاقتصاد على سبيل المثال) التي ترتبط بكل سعر؛ ومن ثَمَّ تحفز العلاقة بين هذه الأسعار؛ فعندما يزيد المتغير الخفي، ترتفع كل الأسعار. تشكل هذه الأفكار أساس نماذج «التحليل العاملي»، وغالبًا ما يُسمَّى المتغير الكامن باسم «العامل الكامن». كما أنها تشكل أساس «نماذج ماركوف المخفية»، والتي فيها تُفسَّر سلسلة قيم مرصودة في سياق حالات خفية للنظام؛ على سبيل المثال، المرضى الذين يعانون من بعض الأمراض يتفاوتون من حيث جودة الحياة، فأحيانًا ينتكسون وأحيانًا يُشفَوْن على نحو مؤقت. ويمكن نمذجة هذا التعاقب في سياق الحالات الأساسية المتغيرة.

إذا كانت أساليب التصنيف سُمِّيت تيمُّنًا بأنواع المسائل المصمَّمة لحلها، فقد سميت أساليب أخرى تيمنًا بطبيعة البيانات التي تعمل عليها؛ على سبيل المثال، أساليب «تحليل السلاسل الزمنية» تعمل على السلاسل الزمنية؛ أي الملاحظات المتكررة للمتغير أو المتغيرات نفسها على مدار تسلسل زمني. وهياكل البيانات تلك موجودة في كل مكان؛ فهي توجد في الاقتصاد (مثل قياسات التضخم والناتج المحلي الإجمالي والبطالة)، والهندسة، والطب (مثل وحدات العناية المركزة)، وفي كثير من المجالات الأخرى. وفي تحليل السلاسل الزمنية، ربما يكون هدفنا هو فهمها، أو تحليلها إلى مكوناتها الرئيسية (مثل النزعة والموسمية)، أو رصد متى يتغير سلوك النظام، أو رصد الحالات الشاذة (مثل التنبؤ بالزلازل)، أو توقع القيم المستقبلية المحتملة، أو من أجل مجموعة من الأسباب الأخرى. وقد طورت مجموعة كبيرة من الأساليب لتحليل هذه البيانات.

(٣) الرسوم البيانية الإحصائية

توجد فئة معينة من الأدوات الإحصائية مهمة للغاية لدرجة أنها تستحق اهتمامًا خاصًّا. وهذه الفئة هي استخدام الرسوم البيانية. صُقلت العين البشرية على مدار دهور من التطور لكي تكون قادرة على إدراك البِنَى والأنماط في الإشارات التي تَصِل إليها. ويستفيد علم الإحصاء استفادة مكثفة من ذلك عن طريق تمثيل البيانات في صورة مجموعة كبيرة من الأنواع المختلفة من الأشكال الرسومية؛ فعندما تُعرض البيانات على نحو جيد، فإن العلاقات بين المتغيرات أو التكوينات في البيانات تصبح واضحة. ويُستخدَم هذا في تحليل البيانات للمساعدة في فهمِ ما يدور (تَذكَّرْ توزيع رواتب البيسبول في الشكل ٢-١)، وإيصال النتائج إلى الآخرين. وأُقدِّمُ بعض الأمثلة في الأشكال الثلاثة التالية:

شكل ٦-٢: «مصفوفة الشكل الانتشاري» التي تُبيِّن أوقات سباق العَدْو ١٠٠ متر و٤٠٠ متر (بالثواني)، والمسافات (بالأمتار) لدفع الجُلة وقذف القرص للمنافسين في عشاري الرجال في دورة الألعاب الأولمبية عام ١٩٨٨. ويبيِّن كل مربع العلاقةَ بين اثنين من المتغيرات الأربعة. والترابط القوي بين نتائج حدثَيِ الرمي واضحٌ على نحو مباشر.

شكل ٦-٣: مخطط السلسلة الزمنية الذي يبين المبلغ المسحوب من جهاز صراف آلي كل يوم. يبين الشكل بوضوح وجود دورات أسبوعية وشهرية، وأيضًا وجود نزعة متزايدة تدريجيًّا مع مرور الوقت. ويتضح أيضًا وجود قيمة منخفضة على نحو مفاجئ بالقرب من نهاية الفترة.

شكل ٦-٤: توزيع قِيَم تشتيت الضوء من خلايا عوالق نباتية من أنواع مختلفة. في الواقع، يُعرض ثلاثة أنواع هنا، ولكن يمتلك اثنان منها توزيعين للقيم متشابهين جدًّا؛ لذلك يتجمع هذان التوزيعان لتكوين قمة عالية واحدة.

خاتمة

قَدَّم هذا الفصل مراجعة سريعة لعدد قليل من الأدوات الإحصائية المهمة، ولكن يوجد العديد من الأدوات الأخرى الرائعة التي لم أذكرها. وتتناسب النماذج المختلفة مع أنواع المسائل المختلفة وأنواع البيانات المختلفة، ويوجد عدد لا نهائي من المسائل وبنى البيانات. ومن المهم أيضًا أن ندرك أن النماذج ليست كيانات معزولة؛ فالحقيقة هي أن النماذج المختلفة ترتبط بطرق متعددة؛ فربما تكون النماذج تعميمًا لأنواع أخرى من النماذج أو تكون حالات خاصة منها أو تتكيف مع أنواع مختلفة من البيانات، بَيْدَ أنها مُدمَجَة جميعًا في شبكة غنية من العلاقات.