الفصل الخامس

التقدير والاستدلال

الإحصاء هو الفلسفة التطبيقية للعلوم.

إيه بي ديفيد

رأينا في الفصل الأول أن الإحصائيات تلعب دورًا مزدوجًا يتمثل في تلخيص البيانات واستخراج الاستنتاجات من البيانات، واستكشفنا بعض الأدوات البسيطة لتلخيص البيانات في الفصل الثاني. وفي هذا الفصل، وباستخدام مفاهيم الاحتمالات المذكورة في الفصل الرابع، سوف نتناول التقدير والاستدلال؛ أي، سندرس طرق تحديد قيمة الكميات التي لا يمكننا ملاحظتها بالفعل، وتقديم إفادات عنها. إليك بعض الأمثلة:

مثال ١: لتحديد سرعة الضوء، سنقوم بتنفيذ بعض طرق القياس. لا توجد طريقة قياس مثالية، وإذا كررنا هذه العملية فربما سنحصل على قيمة مختلفة قليلًا. وتكرار القياس مائة مرة من المرجح أن يعطينا مائة قيمة مختلفة قليلًا. وهدفُنا إذن هو استخدام هذه العينة من القيم لتقدير سرعة الضوء الحقيقية، دون أن يشوبها شائبة من خطأ القياس.
مثال ٢: في تجربة سريرية عشوائية بسيطة، ربما نُعطِي دواءً جديدًا لعيِّنة من المرضى ودواءً معياريًّا لعينة أخرى. وبناءً على ملاحظات الآثار لدى هاتين المجموعتَين من المرضى سوف نرغب في تقديم إفادة، أو استدلال، حول الفعالية النسبية للدواء الجديد. بعبارة أخرى، نرغب في تقدير مدى كبر الفارق في فعالية الدواءين الذي قد نتوقَّعه إذا كنَّا قد وصفْنا كل دواء من الدواءين للمجموعة الكاملة من المرضى الخاضعين للدراسة. وسنرغب أيضًا على نحو مثالي في الحصول على بعض المؤشرات حول مدى ثقتنا في حجم التقدير.
مثال ٣: في دراسة للبطالة في لندن، ستكون مقابلة الجميع غير قابلة للتطبيق؛ لذلك ستُجرى مقابلات مع عينة من الأشخاص، بهدف استخدام ردود هذه العينة لتقديم إفادة عامة عن لندن بأكملها؛ أي إننا نود تقدير البطالة في لندن بأكملها باستخدام بيانات العينة.
مثال ٤: على نحو أكثر تجريدية، قدمتُ في الفصل الرابع فكرة «مَعْلَمة» التوزيع. وشاهدنا مثال عائلة برنولي من التوزيعات؛ حيث يستطيع متغير عشوائي أن يأخذ القيمة ٠ أو ١، وحيث كانت معلمة تعطي احتمال ملاحظة القيمة ١. كما رأينا أيضًا مثالًا على التوزيع الطبيعي، والذي كان يمتلك معلمتين؛ هما الانحراف المعياري والمتوسط. وربما يكون هدفنا هو تقدير قيمة هذه المعلمة؛ على سبيل المثال، ربما تدرس عالِمة أنثروبولوجيا أطوال مجموعة معينة من الأشخاص، وربما تكون مستعِدَّة لافتراض أن الأطوال مُوزَّعة طبيعيًّا، ولكن لتوصيف التوزيع توصيفًا تامًّا سوف تحتاج إلى معرفة المتوسط والانحراف المعياري لهذا التوزيع. وربما ترغب في استخدام أطوال عينة أشخاص من المجموعة لتقدير المتوسط والانحراف المعياري للمجموعة بأكملها.

(١) تقدير النقطة

عَرَضَ عليَّ صديق لي الصفقةَ التالية: سوف يقذف عملة معدنية على نحو متكرر، وكلما ظهر وجه الصورة سوف يعطيني ١٠ جنيهات استرلينية، ولكن كلما ظهر وجه الكتابة سوف أعطيه ٥ جنيهات استرلينية.

يبدو هذا للوهلة الأولى وكأنه صفقة جيدة بالنسبة لي. فرغم كل شيء، من المعروف جيدًا أنه من المرجح على نحو متساوٍ أن تستقر العملة ووجه الصورة أو الكتابة لأعلى (احتمال ظهور وجه الصورة يساوي ١ / ٢)؛ لذلك من المحتمل أن أفوز بعشرة جنيهات استرلينية بقدر احتمال خسارة خمسة جنيهات استرلينية في كل قذفة للعملة. وفي المتوسط، سوف أكون فائزًا.

ولكن بعد ذلك ساورتْني الشكوك. لماذا يقدم لي صفقة يبدو أنها في صالحي للغاية؟ بدأتُ أشكُّ في أنه ربما عبث بالعملة؛ بحيث يكون احتمال ظهور وجه الصورة في الواقع أقلَّ من النصف. فعلى أي حال، إذا كان احتمال ظهور وجه الصورة في الحقيقة ضئيلًا للغاية، بحيث إنه نادرًا ما يَظهَر، يمكن أن تكون الصفقة سيئة بالنسبة لي. لمعرفة هذا، سأرغب في تقدير هذا الاحتمال. عرض صديقي — الكريم للغاية ولكنه لا يعرف شيئًا عن الإحصاء — قذْف العملة ستَّ مرات، حتى أستطيع أن أرى الوجه الذي سيَظهَر في كل مرة. وهدفي إذن هو استخدام هذه البيانات لتقدير احتمال أن العملة ستستقر ووجه الصورة لأعلى في عمليات القذف المستقبلية.

لنفترض أن العملة خضعت للتلاعب، وأن احتمال ظهور وجه العملة في أي قذفة واحدة كان ١ / ٣ فقط. وبما أن قذفات العملة مستقلة بعضها عن بعض (نتيجة القذفة الواحدة لا تؤثر على نتيجة أي قذفة أخرى)، فإننا نعلم أن احتمال ظهور وجه الصورة في قذفتين هو ببساطة ناتج ضرب احتمال ظهور وجه الصورة في كلتا المرتين: ١ / ٣ × ١ / ٣ = ١ / ٩. وبالمثل، بما أن احتمال ظهور وجه الكتابة هو ١ − ١ / ٣ = ٢ / ٣، فإن احتمال ظهور وجه الصورة متبوعًا بظهور وجه الكتابة سيكون حاصل ضرب ١ / ٣ و٢ / ٣؛ وهو ٢ / ٩. وعمومًا، بافتراض أن احتمال ظهور وجه الصورة في كل قذفة هو ١ / ٣، يمكننا حساب احتمال الحصول على أي تسلسل لوجهَي الصورة والكتابة؛ وعلى وجه الخصوص، تسلسُل مماثل لذلك الذي يظهر في القذفات الست التي رأيناها بالفعل؛ على سبيل المثال، إذا أظهرت القذفات الست التسلسلَ ص – ك – ص – ك – ك – ك، فإن احتمال الحصول على تسلسل متطابق بالمصادفة سيكون ١ / ٣ × ٢ / ٣ × ١ / ٣ × ٢ / ٣ × ٢ / ٣ × ٢ / ٣ = ١٦ / ٧٢٩؛ أي تقريبًا ٠٫٠٢٢.

يمكننا بالطريقة نفسها حساب احتمال الحصول على تسلسل ص – ك – ص – ك – ك – ك إذا كان احتمال ظهور وجه الصورة في كل قذفة يساوي فعليًّا أي قيمة أخرى؛ على سبيل المثال، إذا كان احتمال ظهور وجه الصورة ١ / ٢ (ومن ثم فإن احتمال ظهور وجه الكتابة يساوي ١ − ١ / ٢ = ١ / ٢)، فإن احتمال الحصول على مثل هذا التسلسل هو ١ / ٢ × ١ / ٢ × ١ / ٢ × ١ / ٢ × ١ / ٢ × ١ / ٢ = ١ / ٦٤؛ أي تقريبًا ٠٫٠١٦، وإذا كان احتمال ظهور وجه الصورة هو ١ / ١٠، فإن احتمال الحصول على مثل هذا التسلسل يقرب من ٠٫٠٠٧ وهكذا.

هدفنا الآن هو تقدير احتمال ظهور وجه الصورة في أي قذفة مستقبلية؛ أي إننا نرغب في اختيار قيمة واحدة — ١ / ٣ أو ١ / ٢ أو ١ / ١٠ أو أيًّا ما تكون — كتقدير لهذا الاحتمال. وعند النظر إلى الحسابات السابقة، نرى أن احتمال الحصول على النتائج المرصودة لست قذفات هو ٠٫٠٢٢ إذا كان الاحتمال الحقيقي لظهور وجه الصورة هو ١ / ٣، في حين أنه لا يتجاوز ٠٫٠١٦ إذا كان الاحتمال الحقيقي لظهور وجه الصورة هو ١ / ٢، وهو أقل من ذلك — ٠٫٠٠٧ فقط — إذا كان الاحتمال الحقيقي لظهور وجه الصورة هو ١ / ١٠. ما يعنيه هذا هو أنه من الأكثر ترجيحًا أن نحصل على نتائج القذفات الست المرصودة إذا كان الاحتمال الحقيقي هو ١ / ٣ أكثر ممَّا إذا كان ١ / ٢ أو ١ / ١٠؛ ومن ثَمَّ يبدو من المعقول أن نختار القيمة ١ / ٣ كتقدير وحيد لاحتمال ظهور وجه الصورة؛ فهذه هي القيمة التي يرجح أن تسفر عن البيانات التي حصلنا عليها فعلًا.

يوضح هذا المثال طريقة «الإمكانية القصوى» للتقدير؛ إذ نختار قيمة المعلمة التي لديها أعلى احتمال لإنتاج البيانات المرصودة. في المثال السابق، حسبت فقط هذا الاحتمال للقِيَم الثلاث المرتبطة باحتمالية ظهور وجه الصورة (١ / ٣، ١ / ٢، ١ / ١٠)، ولكن يمكننا جوهريًّا حسابها لجميع القِيَم الممكنة. والدالة التي تبيِّن احتمال حدوث البيانات المرصودة لكل خيار ممكن لاحتمالية ظهور وجه الصورة يطلق عليها اسم «دالة الإمكان». وتلعب هذه الدالة دورًا محوريًّا في الاستدلال الإحصائي.

ويمكن تطبيق المبدأ نفسه من أجْل الحصول على تقديرات لمعلمات التوزيع الطبيعي، أو أي توزيع آخر. فنحسب ببساطة ما يمكن أن يكون احتمال الحصول على مجموعة بيانات مثل التي حدثت في الواقع بالنسبة لخيارات القيم المختلفة المحتملة للمعلمة. ومُقدر الإمكانية القصوى هو قيمة المعلمة التي تُنتج أكبر الاحتمالات. لاحِظ أن هذه العملية تُنتج قيمة واحدة؛ وهي تقدير يكون هو الأفضل من منظور الإمكانية القصوى. ولأنها قيمة واحدة فحسب، فإنها تسمى «تقدير النقطة».

ثمة طريقة بديلة للتفكير في هذا النهج للتقدير؛ وهي النظر لدالة الإمكان على أنها مقياس للتوافق بين البيانات المرصودة (التسلسل الناتج عن ست قذفات للعملة) والبيانات التي تنبَّأَت بها نظريتنا (حيث تعني كلمة «نظرية» هنا القيمة المقترحة لاحتمال ظهور وجه الصورة؛ على سبيل المثال، ١ / ٣ أو ١ / ٢). واختيار النظرية (احتمال ظهور وجه الصورة) لتحقيق أقصى قدر من التوافق — أو على نحو مكافئ، لتقليل التناقض — أمر معقول على نحو واضح. والتفكير في الأمر بهذه الطريقة يسمح لنا بالتعميم؛ إذ يمكننا التفكير في مقاييس أخرى للتناقض؛ على سبيل المثال، في كثير من الحالات، يتمثل مقياس جيد للتناقض في مجموع مربعات الفروق بين قيمة المعلمة المقترحة وقيم العينة الفردية. واختيار المعلمة للحد من هذا المقياس يعني الحصول على «أفضل» تقدير، في سياق أصغر مجموع للفروق المربعة. في الواقع، هذه طريقة شائعة للغاية للتقدير، ويطلق عليها — لأسباب واضحة — «تقدير المربعات الصغرى».

أحيانًا يكون لدينا أفكار قبل تحليل البيانات عن القيمة التي نتوقع أن تكون عليها المعلمة. ومثل هذه الأفكار قد تأتي من الخبرات أو التجارب السابقة؛ على سبيل المثال، بناءً على خبرتنا السابقة في قذف القِطَع النقدية، ربما نعتقد أن المعلمة ، التي تعطي احتمال أن العملة المقذوفة سوف تظهر وجه الصورة، تقترب من ١ / ٢، وأنه من غير المحتمل جدًّا أن تكون بعيدة عن ١ / ٢. ونقول إن لدينا «توزيعًا قَبليًّا» لإيماننا بأن المعلمة المجهولة تأخذ قيمًا مختلفة. ويمثل هذا التوزيع إيمانًا ذاتيًّا حيال قيمة المعلمة؛ كما هي الحال مع التفسير الذاتي للاحتمال المذكور في الفصل الرابع. وفي مثل هذه الحالات، بدلًا من تحليل البيانات بمعزل لاستخراج تقدير لقيمة المعلمة، من المنطقي الجمع بين البيانات وإيماننا السابق لاستخراج «توزيع بعدي» لمعتقداتنا حول القيم المحتملة للمعلمة. وهذا يعني أننا نبدأ بتوزيع يصف معتقداتنا حول القيم المحتملة للمعلمة، ونعدِّله وفقًا لما نلاحظه في البيانات؛ على سبيل المثال، توزيعنا القبلي لاحتمال أن العملة ستظهر وجه الصورة ربما يكون مركَّزًا للغاية حول قيمة ١ / ٢؛ فنعتقد أنه من المحتمل جدًّا أن تقترب من ١ / ٢. ومع ذلك، إذا قُذفت العملة مائة مرة، وظهر في ثلاث مرات فحسب من أصل مائة مرة وجه الصورة، فربما نرغب في ضبط هذا التوزيع؛ بحيث تعتبر القيم الأصغر للاحتمال أكثر ترجيحًا والقيم الأقرب للقيمة ١ / ٢ أقل ترجيحًا.

في الواقع، نظرية بايز — المذكورة في الفصل الرابع — هي التي تمكننا من الجمع بين المعتقدات القَبلية والبيانات المرصودة لإنتاج المعتقدات البعدية. لهذا السبب، يطلق على هذه الطريقة للتقدير طريقة «التقدير البايزي». تذكر أن نظرية بايز تربط اثنين من الاحتمالات الشرطية: احتمال حدوث «أ» نظرًا لوقوع «ب»، واحتمال حدوث «ب» نظرًا لوقوع «أ». في هذه الحالة، نَستخدم النظرية لربط احتمال أن المعلمة لها قيمةٌ ما نظرًا للبيانات التي نلاحظها، مع احتمال ملاحظة هذه البيانات نظرًا لقيمة معينة للمعلمة. والآن، الاحتمال الثاني من هذين الاحتمالين — احتمال ملاحظة هذه البيانات نظرًا لقيمة معينة للمعلمة — هو ببساطة دالة الإمكان؛ ومن ثَمَّ تَستخدم نظرية بايز إمكانية البيانات لتعديل معتقداتنا القبلية، من أجل إنتاج معتقداتنا البعدية.

لاحظ أن هناك فرقًا دقيقًا — ولكنه مهم — بين هذه الطريقة والطرق الأخرى المذكورة سابقًا (التي غالبًا ما يُطلَق عليها الطرق «التكرارية» أو «الكلاسيكية»)؛ حيث إننا نفترض فيها أن المعلمة المجهولة لها قيمة ثابتة ولكنها مجهولة. ومع ذلك، بالنسبة للتقدير البايزي، افترضنا أن المعلمة المجهولة لها توزيع عبر مجموعة من القيم الممكنة، مقدم في البداية من خلال التوزيع القَبْلي، ثم بعد ذلك — عند تحديثه بواسطة المعلومات في البيانات — من خلال التوزيع البَعْدي. ويقر الباحث بأن المعلمة يمكن أن يكون لها قيم مختلفة، ويستخدم التوزيع الاحتمالي للتعبير عن معتقده حيال كل قيمة.

لا يخلو مفهوم التوزيع القبلي من الجوانب المُثِيرة للجَدَل. فعَلَى أقل تقدير، الأشخاص المختلفون ذوو الخبرة السابقة المختلفة، ربما يكون من المتوقَّع أن يمتلكوا توزيعات قبلية مختلفة، وهذه التوزيعات ستُجمع مع البيانات لإنتاج توزيعات بعدية مختلفة، وربما استنتاجات مختلفة. وهكذا تم التضحية بأي تظاهر بالموضوعية. كما توجد أيضًا صعوبة عملية؛ ففي حين أن متوسط التوزيع الطبيعي والمعلمة في توزيع برنولي لهما تفسيرات واضحة ومباشرة، فليست الحال دائمًا أن تمتلك معلمات التوزيعات تفسيرات واضحة. ويمكن أن يكون أحيانًا من الصعب للغاية الوصول لتوزيعات قبلية معقولة تعكس معرفتنا المسبقة.

عند هذه النقطة في شرحنا لطريقة التقدير البايزي وصلنا إلى التوزيع البعدي؛ وهو توزيع يلخص اعتقاد الباحث بشأن كل قيمة تأخذها المعلمة بعد رؤية البيانات. ويمكننا، إذا أردنا، تقليص هذا التوزيع بأكمله لتقدير نقطة واحدة عن طريق استخدام ملخص إحصائي للتوزيع؛ على سبيل المثال، يمكننا أن نستخدم المتوسط أو المنوال الخاص به.

(٢) أي تقدير أفضل؟

كيف يمكننا معرفةُ ما إذا كانت طريقة تقدير النقطة فعالة أم لا، وأي مُقَدِّر هو الأفضل؟ على سبيل المثال، بينما قد أختار تقدير متوسط التوزيع باستخدام متوسط عينة مأخوذة من هذا التوزيع، ثمة بديل يتمثل في إسقاط أكبر القيم وأصغرها من العينة قبل احتساب المتوسط. وعمومًا، تتسم أكبر القيم وأصغرها بالقَدْر الأكبر من التفاوت من عينة لأخرى؛ لذلك ربما يُنتج التغاضي عنها تقديرًا أكثر موثوقية وأقلَّ تفاوتًا.

بالنسبة للطريقة التكرارية للتقدير، والتي تَفترض وجود قيمة حقيقية ثابتة — ولكنها مجهولة — للمعلمة الجاري تقديرها، نَوَدُّ في الحالة المثالية أن نعرف أيٌّ من هاتين الطريقتين تعطي تقديرًا أقرب إلى القيمة الحقيقية. وللأسف، بما أن القيمة الحقيقية مجهولة (بيت القصيد هنا هو تقديرها!) فلا يمكن أبدًا أن نعرف الإجابة. من ناحية أخرى، ما «يمكننا» أن نأمل في أن نعرفه هو عدد المرات التي قد نتوقَّع فيها أن تكون القيمة المقدَّرَة قريبة من القيمة الحقيقية إذا حدث أن كررنا عملية أَخْذ عينة من القياسات واحتساب التقدير. فرغم كل شيء، بما أن القيمة المقدرة تستند على عينة، فمِن المرجَّح أن القيمة المقدرة ستكون مختلفة إذا أخذت عينة مختلفة؛ وهذا يعني أن التقدير في حدِّ ذاته متغير عشوائي، يختلف من عينة لعينة أخرى. وبما أنه متغير عشوائي، فإن له توزيعًا. وإذا علمنا أن هذا التوزيع متجمع بإحكام حول القيمة الحقيقية، فربما نعتبر طريقةَ التقديرَ طريقةً جيدةً. بعبارة أخرى، إذا كنَّا نعرف أن طريقةً ما «عادة» ما تُسفِر عن تقدير يكون قريبًا للغاية من القيمة الحقيقية للمعلمة، فربما نعتبرها طريقة جيدة للتقدير. ومع أن هذا لا يُخبِرنا شيئًا عن حالتنا المحددة، فإنه سيكون لدينا ثقة في الطريقة على نحو مبرر. فعلى أي حال، إذا كنتَ على علم بأن شخصًا ما يتنبَّأ تنبؤًا صحيحًا في ٩٩٩ من كل ١٠٠٠ مرة، فإنك بالتأكيد ستَمِيل إلى الوثوق به في أي حالة معينة. أنت تفعل ذلك مع سائقي القطارات والطيارين والمطاعم، وما إلى ذلك؛ فأنت تعرف أن السائق والطيار نادرًا ما يقع في حادث، والمطعم نادرًا ما يقدم طعامًا مسمَّمًا، لذلك تكون سعيدًا بالمخاطرة بأنه «في هذه المرة» ستكون الأمور على ما يرام.

باستخدام هذا المبدأ، طُوِّرت عدة مقاييس مختلفة لتقييم طرق التقدير التكرارية البديلة. يتمثل أحد هذه المقاييس في «التحيز»، وهذا يُخبِرنا بمدى حجم الفارق بين القيمة الحقيقية للمعلمة والقيمة المتوسطة لتوزيع القيم المقدرة. وعلى وجه التحديد، إذا كان هذا الفارق يساوي صفرًا (أي إذا كان متوسط توزيع القيم المقدرة يساوي القيمة الحقيقية)، يقال إن المُقدِّر «غير متحيز».

على سبيل المثال، نسبة ظهور وجه الصورة نتيجة قذف العملة عدة مرات تكون مُقدِّرًا غير متحيز لاحتمال أن العملة ستستقر ووجه الصورة لأعلى؛ إذ إن القيمة المتوسطة لتوزيع هذه النسبة في التجارب المتكررة تساوي الاحتمال الصحيح لظهور وجه الصورة. وللتوضيح، افترض أن الاحتمال الحقيقي لاستقرار العملة ووجه الصورة لأعلى هو ٠٫٥٥؛ وهو أمر مجهول بالنسبة لنا، وأننا قذفنا العملة عشر مرات، وقدرنا هذا الاحتمال عن طريق نسبة ظهور وجه الصورة. ربما تُسفِر القذفات العشر عن ست مرات لظهور وجه الصورة؛ وهي نسبة تبلغ ٠٫٦، أو ثلاث مرات؛ وهي نسبة تبلغ ٠٫٣، أو خمس مرات؛ وهي نسبة تبلغ ٠٫٥، وهكذا. وفي المتوسط (متوسط يُحسب من خلال تكرارات خيالية للقذفات العشر) ستكون النسبة ٠٫٥٥ لأن نسبة ظهور وجه الصورة هي مُقدِّر غير متحيز لاحتمال أن العملة سوف تستقر ووجه الصورة لأعلى.

وعمومًا، المقدر ذو التحيز الكبير لن يُنظر إليه على نحو مفضل مثل المقدر غير المتحيز. وفي المتوسط، من خلال تكرار التجربة، فإن المقدر ذا التحيز الكبير سوف يُسفِر عن قيمة مختلفة كثيرًا عن القيمة الحقيقية.

ثمة مقياس آخَر لتحديد جودة المقدر هو «متوسط مربع الخطأ»؛ فبالنسبة لأي قيمة مقدَّرة معينة يمكننا — إذا عرفنا قيمة المعلمة الحقيقية — حساب مربع الفارق (أي «مربع الخطأ») بين التقدير والقيمة الحقيقية. التربيع مُفيد لسبب واحد؛ وهو أنه يجعل كل الأرقام موجبة. وبما أن التقدير نفسه متغير عشوائي يختلف من عينة لعينة أخرى، فإن مربع الخطأ هو أيضًا كذلك. وبما أنه متغير عشوائي، فإن لديه توزيعًا، و«متوسط» مربع الخطأ ببساطة هو متوسط هذا التوزيع. ومتوسط مربع الخطأ الصغير يعني أنَّ — في المتوسط — مربعَ الفارق بين القيمة المقدَّرة والقيمة الحقيقية صغيرٌ. ولا يُنظر إلى المُقدِّر الذي يُعرَف أن لديه متوسطَ مربعِ خطأٍ كبيرًا بنظرة مفضَّلة مثل ذلك الذي لديه متوسطُ مربعِ خطأٍ صغيرٌ؛ إذ لن يثق المرء كثيرًا في أن قيمته قريبة من القيمة الحقيقية.

(٣) تقدير الفترة

عندما تناولنا بعض الملخصات الإحصائية الأساسية بالدراسة في الفصل الثاني، رأينا أنها تلخص على نحو جيد جدًّا عينة من القيم عن طريق متوسطها أو ملخص إحصائي وحيد آخر، ولكن هذا ترك الكثير مما هو مرغوب فيه. وتحديدًا، فشلت هذه الملخصات في إيضاح مدى انتشار قيم العينة حول هذا المتوسط. وعالجنا هذه المشكلة من خلال تقديم المزيد من الملخصات الإحصائية مثل المدى والانحراف المعياري، والتي أشارت إلى مدى تشتت قيم العينة.

ينطبق المبدأ نفسه على التقدير. حتى الآن تناولنا تقديرات النقطة، وهي تقديرات تتمثل في قيمة «واحدة» تمثل أفضل تقدير بمعنًى ما. وبديل ذلك هو تقديم مجموعة من القيم — أي «فترة» — نثق في أنها تحتوي على القيمة الحقيقية. دعنا نَعُدْ إلى صفقة العشرة/الخمسة جنيهات التي عرضها صديقي. سعَيْنا سابقًا للوصول إلى أفضل تقدير وحيد لاحتمال أن قذفة العملة ستُظهِر وجه الصورة. بدلًا من ذلك، يمكن أن نسعى للوصول إلى مجموعة من القيم التي نَثِق في أنها تشمل الاحتمال الحقيقي. ربما يمكننا أن نكون واثقين للغاية في أن الاحتمال الحقيقي يكمن بين ١ / ٤ و٢ / ٥، مثلًا. وهذا مثال على «تقدير الفترة».

وبما أن القيمة الحقيقية مجهولة، فلا نستطيع أن نقول على وجه اليقين إذا كانت أي فترة معينة سوف تشتمل في الواقع على القيمة الحقيقية أم لا. ولكن تخيَّلْ تكرار التمرين مرارًا وتكرارًا باستخدام عينات عشوائية مختلفة (تمامًا كما تخيلنا عندما حددنا التحيز سابقًا). يمكننا حساب تقدير الفترة لكل عينة من هذه العينات، وإذا أُنشِئت الفترات على نحو صحيح، فمن الممكن أن نقول إن نسبة معينة من الفترات (على سبيل المثال ٩٥٪ أو ٩٩٪ أو ما نختار) تشمل القيمة الحقيقية المجهولة.

بالعودة إلى عملة صديقي، لا نستطيع أن نقول على وجه اليقين إن أي فترةٍ معينةٍ، محسوبةٍ لأي عينة بيانات معينة، ستحتوي على الاحتمال الصحيح بأن العملة سوف تظهر وجه الصورة. ولكن يمكننا القول إن ٩٥٪ (أو ما نختار) من الفترات ستحتوي على الاحتمال الحقيقي. وبما أن ٩٥٪ من الفترات سوف تحتوي على القيمة الحقيقية، فإننا يمكن أن نثق على نحو كبير أن الفترة الواحدة التي حسبناها، استنادًا إلى العينة التي حصلنا عليها فعلًا (ص – ك – ص – ك – ك – ك في المثال) ستشمل القيمة الحقيقية؛ ولهذا السبب، تسمى هذه الفترات «فترات الثقة».

بالتحول إلى طرق التقدير البايزي، رأينا أن نتيجة التحليل البايزي هي توزيع بَعديٌّ كامل للقيم، وهذا التوزيع يخبرنا بقوة اعتقادنا في أن المعلمة لديها أي قيمة معينة. يمكن أن نترك الأمور عند هذا الحد؛ فعلى سبيل المثال، إذا كان للتوزيع انحراف معياري صغير فإن هذا يعني أننا كنَّا على ثقة كبيرة بأن قيمة المعلمة تكمن في نطاق ضيق. لكن في بعض الأحيان، من المريح تلخيص الأمور بطريقة مماثلة لفترات الثقة أعلاه، وتقديم فترة محددة بأكبر وأصغر قيمة؛ على سبيل المثال، يمكننا إيجاد فترة تحتوي على ٩٥٪ من المساحة الموجودة تحت التوزيع الاحتمالي البعدي داخلها. وبما أن التوزيعات تمتلك درجة من تفسير المعتقد، فإن هذه الفترات يمكن تفسيرها على أنها تُعطِي احتمال أن القيمة الحقيقية تكمن في داخلها. ولتمييزها عن فترات الثقة التكرارية، تُسمَّى هذه الفترات «فترات المصداقية».

(٤) الاختبار

يَستخدم الإحصائيون عبارتَي: «اختبار الفرضية» و«اختبار الدلالة» لوصف عمليتَيِ استكشافِ ما إذا كانت المعلمات في النموذج تأخذ قيمًا محددة أو تقع في نطاقات معينة. وربما يعني ذلك في أبسط مستوياته اختبار معلمة واحدة فحسب؛ على سبيل المثال، يمكن أن نعرف أن ٥٠٪ من المرضى الذين يعانون من مرض معين يتعافَوْن بتناول العلاج المعياري، وقد نخمن أن تناول علاج جديد مقترح يشفي ٨٠٪ من هؤلاء المرضى. المعلمة الوحيدة التي نهتم باختبارها هي نسبة الشفاء بالنسبة للعلاج الجديد، وسنودُّ أن نعرف ما إذا كانت ٨٠٪ بدلًا من ٥٠٪.

من الحقيقي أن الناس مختلفون؛ فهم يختلفون من حيث العمر والجنس واللياقة البدنية وشدة المرض والوزن ومجموعة من الأشياء الأخرى؛ وهذا يعني أنه حتى عندما يتناول أشخاص متماثلون الجرعةَ نفسها من الدواء نفسه، فإن الاستجابة تختلف؛ فربما يُشفَى البعض ولا يُشفَى البعض الآخر. وفي الواقع، من الممكن للغاية أن تختلف استجابة المريض نفسه في الأوقات المختلفة وتحت الظروف المختلفة. النموذج المعقول لهذه الحالة ربما يتمثل في أن أي مريض يتناول دواءً لديه احتمال للشفاء. وفي مثالنا، نعلم أن في ظل العلاج المعياري، ونظن أن في ظل العلاج الجديد.

في هذه المرحلة، لمعرفة النسبة التي تُشفَى عن طريق الدواء الجديد، فإن ما نودُّ القيام به هو إعطاء الدواء الجديد لمجموعة المرضى بأكملها الخاضعة للدراسة، تحت كل الظروف الممكنة، ونرى النسبة التي تُشفَى. هذا مستحيل على نحو واضح، وما يتعين علينا القيام به هو إعطاء الدواء لعينة من المرضى وحسب، ويمكننا بعد ذلك حساب نسبة الشفاء في العينة. للأسف، بما أننا نتعامل مع عينة فحسب، وليس جميع المرضى، فإن مجرد حقيقة شفاء ٨٠٪ — على سبيل المثال — من العينة أو ٦٠٪ أو ٩٠٪ أو أي نسبة، لا تعني بالضرورة أن هذه النسبة ستُشفَى في مجموعة المرضى بأكملها. فإذا أخذنا عينة مختلفة، فسنحصل على الأرجح على نتيجة مختلفة.

ومع ذلك فإن العينة المأخوذة من مجموعة يُشفَى فيها عمومًا ٥٠٪ فقط من المرضى عادةً ما تكون نسبة الشفاء فيها أقل من العينة المأخوذة من مجموعة تبلغ نسبة الشفاء فيها ٨٠٪ من المرضى.

وهذا يعني أننا يمكن استخدام حد — مثلًا — بحيث لو لاحظنا أن نسبة الشفاء في العينة أقل من سوف نرجح فرضية ٥٠٪، وإذا لاحظنا نسبة شفاء في العينة أكبر من ، فسوف نرجح فرضية ٨٠٪. وفي الحالة الثانية، نقول إن إحصائيات العينة تقع في «منطقة الرفض» أو «المنطقة الحرجة»؛ حيث إن نسبة الشفاء للعلاج المعياري — ٥٠٪ — قد «رفضت».

بالقيام بذلك، فإننا نخاطر بالوقوع في أحد نوعين من الأخطاء؛ فقد نقرر أن الدواء الجديد يشفي ٨٠٪ من المرضى في مجموعة المرضى الخاضعين للدراسة بأكملهم في حين أنه في الحقيقة يشفي ٥٠٪ فقط، أو قد نقرر أن الدواء الجديد يشفي ٥٠٪ من المرضى في مجموعة المرضى الخاضعين للدراسة بأكملهم في حين أنه في واقع الأمر يشفي ٨٠٪. ترتِّب طريقةٌ تسمى طريقة «نيمان-بيرسون» لاختبار الفرضية الأمورَ بحيث يكون احتمال الوقوع في كلا هذين النوعين من الأخطاء معروفًا، وصغيرًا بما فيه الكفاية ليعطينا ثقة في النتائج.

إليك كيفية عمل ذلك: نبدأ بوضع افتراض؛ إذ نفترض أن الدواء الجديد يشفي ٥٠٪ فقط من المرضى، ويسمى هذا الافتراض «فرضية العدم». تنص فرضية أخرى تُسمَّى «الفرضية البديلة» على أن الدواء الجديد يشفي ٨٠٪ من المرضى. باستخدام حسابات الاحتمال الأساسية نتمكن من معرفة نسبة العينات التي سوف تُظهر نسبة شفاء — عن طريق المصادفة — أكبر من أي مختارة، إذا كان افتراض ٥٠٪ (فرضية العدم) حقيقيًّا. وعادة ما تُختار بحيث إنه إذا كانت فرضية العدم حقيقية، فإن ٥٪ أو ١٪ فقط من المرات تتجاوز نسبة الشفاء في العينة .

في هذه الحالة، عندما تكون فرضية العدم حقيقية (أي إذا كان ٥٠٪ فقط من المجموعة الخاضعة للدراسة بأكملها سيُشفى) وحصلنا في الواقع على نسبة شفاء في العينة أكبر من — مما يؤدي بنا إلى اتخاذ قرار لصالح نسبة الشفاء الكلي البالغة ٨٠٪ — فربما نكون واقعين في النوع الأول من الأخطاء المذكورة آنفًا (وهو ما يسمى تقليديًّا «خطأ من النوع الأول»). وعادة ما يستخدم الرمز لتمثيل احتمال حدوث خطأ من النوع الأول. ويعني اختيارنا لقيمة في المثال أن ثابتة لدينا عند ٠٫٠٥ أو ٠٫٠١ أو أي قيمة نختارها.

إذا لاحظنا نسبة شفاء في العينة أكبر من ، حينها إما أن تكون فرضية العدم حقيقية (النسبة الحقيقية البالغة ٥٠٪)، ويكون حدثٌ ذو احتمال ضعيف (معدل العينة أعلى من ، يحدث باحتمال ) قد وقع، أو تكون فرضية العدم غير حقيقية. هذان هما الاحتمالان الوحيدان الممكنان، وهذا هو جوهر طريقة نيمان-بيرسون لاختبار الفرضية؛ فعن طريق اختيار بحيث يكون صغيرًا بما فيه الكفاية (ويعتقد عمومًا أن ٠٫٠٥ و٠٫٠١ صغيران بما فيه الكفاية)، نشعر على نحو معقول بالثقة عند الإشارة إلى أن فرضية العدم ليست حقيقية؛ لأنه لو كانت حقيقة لوقع حدث غير مرجح.

أما النوع الثاني من الأخطاء (يسمى بطبيعة الحال «خطأ من النوع الثاني») فينشأ عندما تكون الفرضية البديلة حقيقية (نسبة ٨٠٪ في المثال)، ولكن نسبة الشفاء المرصودة في العينة أقل من . بما أننا اخترنا للسيطرة على احتمال الوقوع في الخطأ من النوع الأول، لا يمكننا أن نختار أيضًا للسيطرة على احتمال الوقوع في الخطأ من النوع الثاني. ومع ذلك، يمكننا أن نجعل احتمال الوقوع في الخطأ من النوع الثاني صغيرًا كما نشاء عن طريق أخذ عينة كبيرة بما يكفي. وهذا مرة أخرى هو تأثير قانون الأعداد الكبيرة؛ فزيادة حجم العينة يقلل من نطاق التفاوت في تقدير العينة؛ ومن ثَمَّ يقلل من احتمال أن يكون تقدير العينة أقل من عندما تكون القيمة الحقيقية للمجموعة الخاضعة للدراسة بأكملها أعلى؛ أي عند قيمة ٨٠٪. وبالتحديد، من خلال جعل العينة كبيرة بما يكفي يمكننا أن نقلِّل مِن احتمال حدوث الخطأ من النوع الثاني إلى أي قيمة نراها مناسِبة. عادة ما يُستخدَم الرمز لتمثيل احتمال حدوث الخطأ من النوع الثاني، ويستخدم مصطلح «القوة» لتمثيل ؛ وهو احتمال اختيار الفرضية البديلة عندما تكون حقيقية.

إن موقف اختبار الفرضيات المذكور هنا يشبه الموقف في المحكمة، حيث يُفترض في البداية أن المتهم بريء (فرضية العدم)، وهنا يكون من الممكن حدوث نوعين من الأخطاء: الحكم على شخص بريء بأنه مذنب (النوع الأول) أو الحكم على شخص مذنب بأنه بريء (النوع الثاني).

لاحظ أن الفرضيتين تدخلان في طريقة نيمان-بيرسون لاختبار الفرضية: فرضية العدم والفرضية البديلة. في «اختبار الدلالة»، تخضع فرضية العدم فقط للاختبار؛ فالهدف هو «رفض» فرضية العدم إذا كانت القيمة الإحصائية الخاضعة للاختبار (نسبة الشفاء في العينة في المثال السابق) مختلفةً بما فيه الكفاية عمَّا يمكن توقُّعه في ظل فرضية العدم، أو «الفشل في رفضها» إذا لم تكن القيمة متطرفة للغاية. فلا توجد أي فرضية بديلة مذكورة بوضوح. ويستخدم المصطلح «قيمة » لوصف احتمال أن نرصد قيمة إحصائية خاضعة للاختبار متطرفة مثل تلك المرصودة في الواقع، أو أكثر تطرفًا إذا كانت فرضية العدم حقيقية.

وُضعت فكرتا فرضية العدم واختبار الدلالة من أجل مجموعة كبيرة من المشاكل، فثمة اختبارات معينة طُوِّرت وسُمِّيت في كثير من الأحيان باسم أحد مطوِّريها الأصليين (مثل اختبار والد، واختبار مان ويتني)، أو سُمِّيت تيمُّنًا بتوزيع الإحصائية المعنية الخاضعة للاختبار (مثل اختبار ، واختبار مربع كاي).

وتُعَدُّ اختبارات الفرضيات البايزية — ظاهريًّا على الأقل — أكثر وضوحًا؛ فوَفْقَ مبرهنة بايز، لدينا احتمالات بَعدية بأن كل فرضية حقيقية؛ ومن ثم نستطيع استخدامها لاختيار إحدى الفرضيات. وفي الممارسة العملية، فإن الأمور في بعض الأحيان تكون أكثر تعقيدًا.

(٥) نظرية القرار

وَصفتُ على نحو غير رسمي «الاختبار» بأنه معرفةُ ما إذا كانت معلمات نموذج تتخذ قيمًا معينة أو تقع ضمن نطاقات معينة. وهذا وصف جيد لكثير مما يدور في أي سياق علمي؛ فالهدف هو اكتشاف كيف تسير الأمور. ولكن في سياقات أخرى، مثل التجارة أو الطب على سبيل المثال، فإن الهدف عادة ليس مجرد اكتشاف قيمة المعلمات، ولكن الهدف هو التصرف وفق ما نحصل عليه من معلومات. فنريد أن ننظر إلى المريض، ونُجرِي عددًا من الملاحظات والتجارب، ونتخذ أفضل مسار للعلاج، وذلك باستخدام البيانات الناتجة. ربما يعني مصطلح «أفضل» أشياءَ كثيرةً مختلفةً، ولكن على نحو نظري، فإننا سوف نرغب في تعظيم الفائدة أو الربح أو «المنفعة»، أو على نحو مكافئ، تقليل التكلفة أو الخسارة. إذا كنَّا نستطيع تحديد «دالة منفعة» مناسبة، محدِّدين ما سيكون المكسب إذا طُبِّق كل فعل بينما تأخذ الحقيقة غير المعروفة كل قيمة من قيمها الممكنة، يمكننا عندئذٍ مقارنة «قواعد اتخاذ القرارات» المختلفة؛ أي الطرق المختلفة للاختيار بين الأفعال؛ على سبيل المثال، ربما نختار قاعدة اتخاذ القرار التي تزيد من الحد الأدنى للمكاسب التي يمكن جلبها، مهما كانت الحقيقة غير المعروفة. بدلًا من ذلك، إذا كنَّا نعمل ضمن إطار بايزي؛ ومن ثم كان لدينا توزيع بعدي للاحتمالات عبر الحالة غير المعروفة للحقيقة، يمكننا حساب متوسط قيمة الربح لكل قاعدة اتخاذ قرار، واختيار القاعدة ذات أكبر قيمة للمتوسط.

إليك مثالًا على ذلك. ربما ترغب شركةٌ ما في معرفة أيُّ مسار للعمل — إرسال رسالة أم إجراء مكالمة هاتفية — هو الأكثر فعالية في تشجيع عملائها على شراء أحدث منتجاتها. سيكون من غير الواقعي أن نتصور أن الإجراء نفسه سيكون أكثر فعالية لجميع أنواع العملاء؛ فسيستجيب بعض العملاء على نحو أفضل للرسالة، وسيستجيب البعض أفضل للمكالمة الهاتفية، ولكننا لا نعرف الوسيلة الأفضل لكل عميل. ولكن ربما تمتلك الشركة بيانات حول كل عميل؛ وهي المعلومات التي قدَّمها العميل عندما اشترى منها لأول مرة؛ البيانات التي تصف مشترياته السابقة، وما شابَه ذلك. باستخدام هذه البيانات، يمكننا صياغة قواعد لاتخاذ القرار، والتي تُخبِرنا بأمور مثل «إذا كان العميل يبلغ من العمر أقل من ٢٥ عامًا، ولديه نمط سابق من المشتريات العادية فقُمْ بإجراء «مكالمة هاتفية»؛ وخلاف ذلك قُمْ بإرسال «الرسالة».» ويمكن صياغة العديد من قواعد اتخاذ القرار المحتملة تلك. وبالنسبة لكل إجراء — مكالمة هاتفية أو رسالة — فإننا نستطيع تقدير الربح، ربما حتى من الناحية النقدية، إذا قمنا بهذا الإجراء واتضح أن العميل من النوع الذي يستجيب (أو لا يستجيب) جيدًا لهذا الإجراء؛ ومن ثم يمكن أن نختار قاعدة اتخاذ القرار التي تجعل الحد الأدنى للربح أكبر. أو يمكننا حساب متوسط توزيع العملاء من كل نوع، لإنتاج متوسط ربح لكل قاعدة اتخاذ قرار، ثم اختيار القاعدة التي تؤدي إلى أكبر متوسط ربح.

(٦) إذن أين نحن الآن؟

كان الاستدلال الإحصائي على مر السنين موضع جدل كبير، وأحيانًا كان الجدل محتدمًا للغاية. وعلى الرغم من أن طرق الاستدلال المختلفة تؤدي بالفعل أحيانًا إلى استنتاجات مختلفة، فإن التجارب تبيِّن أن الاستخدام البالغ الدقة لهذه الأساليب عن طريق إحصائيين يفهمونها جيدًا يؤدي عمومًا إلى استنتاجات متشابهة. هذا كله جزء من فن تطبيق الإحصاء ويدل على أن إجراء التحليل الإحصائي ليس مجرد ممارسة آلية للرياضيات؛ فهو يتطلب فهمًا للبيانات وخلفياتها، وكذلك فهمًا سليمًا لنظرية الاستدلال الأساسية.

تضع المدارس المختلفة للاستدلال الإحصائي درجات متفاوتة من التركيز على عدد من المبادئ المختلفة. ومن أمثلة هذه المبادئ «مبدأ الإمكان» (إذا امتلك نموذجان من النماذج المختلفة دالة الاحتمال نفسها، فإنه ينبغي أن يؤديا إلى النتائج نفسها)، و«مبدأ أخذ عينات متكررة» (ينبغي تقييم الإجراءات الإحصائية على أساس كيف ستتصرف «في المتوسط» إذا طُبقت على العديد من العينات المتكررة)، و«مبدأ الكفاية» (المعني بتلخيص البيانات بحيث يتم إبقاء معلومات كافية لتقدير أي معلمة). يبدو كل مبدأ من هذه المبادئ معقولًا تمامًا، ولكنها ربما تتعارض أحيانًا.

كانت الأساليب التكرارية الكلاسيكية لسنوات عديدة هي الطرق الأكثر استخدامًا في الاستدلال، ولكنِ اكتسبت الأساليب البايزية شعبية كبيرة في السنوات الأخيرة. كان هذا نتيجة مباشرة لتطوير أجهزة الكمبيوتر القوية وأساليب الحوسبة الذكية، فضلًا عن الترويج بحماس لمثل هذه الأساليب من قِبَل مؤيديها؛ فالعلوم تُمارَس في سياق اجتماعي، والجوانب الإنسانية المتعلقة بكيفية انتشار وتراجع هيمنة الأفكار المختلفة للاستدلال على مدى العقود القليلة الماضية تُعد قصة رائعة.

ثمة نقطة أخيرة؛ آمل أن أكون قد أوضحتُ في هذا الفصل أن هناك جوانب مختلفة للاستدلال. وتحديدًا، ربما نكون مهتمِّين بمحاولة العثور على إجابات لأنواع مختلفة من الأسئلة. وتشتمل هذه الأسئلة على أسئلة مثل: بِمَ تخبرني البيانات؟ وماذا ينبغي عليَّ أن أُومِنَ به؟ وماذا ينبغي أن أفعل؟ وما إلى ذلك. وتتلاءم طرق الاستدلال المختلفة مع الأنواع المختلفة من الأسئلة.