علم الإحصاء في كل مكان | علم الإحصاء: مقدمة قصيرة جدًّا

(١) علم الإحصاء الحديث

أريد أن أبدأ بتأكيدٍ ربما يَجِده العديد من القراء مفاجئًا: «علم الإحصاء هو أكثر العلوم إثارة.» وهدفي في هذا الكتاب أنْ أوضح لك أن هذه العبارة صحيحة، وأن أبيِّن لك السبب في صحتها. وآمل أن أبدِّد بعض المفاهيم الخاطئة القديمة حول طبيعة الإحصاء، وإظهار ما يبدو عليه علم الإحصاء الحديث، وكذلك توضيح بعضٍ من قوَّته الهائلة، فضلًا عن انتشاره.

وعلى نحو خاص، أريد في هذا الفصل التمهيدي أن أنقل أمرين؛ أولهما: هو نكهة الثورة التي حدثت في العقود القليلة الماضية؛ فأريد أن أشرح كيف تحول الإحصاء من علم فيكتوري جافٍّ معنيٍّ بالتلاعب اليدوي بأعمدة الأرقام إلى تكنولوجيا حديثة متطورة للغاية تنطوي على استخدام أدوات البرمجيات الأكثر تقدمًا. وأريد توضيح كيف يستخدم إحصائيو اليوم هذه الأدوات لدراسة البيانات بحثًا عن البنيات والأنماط، وكيفية استخدامهم لهذه التكنولوجيا لتقشير طبقات الحيرة والغموض وكشْف الحقائق الموجودة تحتها؛ فعِلم الإحصاء الحديث — على غرار التلسكوبات والمجاهر والأشعة السينية وأجهزة الرادار وأجهزة المسح الطبية — يمكِّننا من رؤية أشياء غير مرئية للعين المجردة؛ فهذا العلم يمكِّننا من الرؤية خلال الضباب والارتباك الموجود في العالَم من حولنا؛ من أجل فهم الواقع الأساسي.

هذا إذَن هو أول شيء أريد أن أوصله خلال هذا الفصل: القوة والإثارة الهائلتان اللتان يضمهما علم الإحصاء الحديث، والمصدر الذي جاء منه، والأشياء التي يَقدِر على فعلها. والشيء الثاني الذي أتمنَّى توصيله هو الوجود الكلي للإحصاء؛ فلا يوجد جانب من جوانب الحياة الحديثة لا يمسه علم الإحصاء. إن الطب الحديث مبنيٌّ على علم الإحصاء؛ فعلى سبيل المثال، وُصفت التجارب العشوائية الخاضعة للضبط بأنها «واحدة من أدوات البحث الأبسط والأقوى والأكثر ثورية.» وفهْم العمليات التي تنتشر الأوبئة من خلالها يمنعها من الفتك بالبشر. تعتمد الحكومة القديرة على التحليل الإحصائي الدقيق للبيانات في وصف الاقتصاد والمجتمع؛ وربما يمثل هذا حجةً للإصرار على أن جميع مَن يكونون في الحكومة ينبغي أن يَدرسوا دورات إلزامية في الإحصاء. والمزارعون وتقنيُّو الغذاء ومراكز التسوق يستخدمون جميعًا الإحصاء على نحو ضمني في تحديدِ ما يزرعونه، وكيفية معالجته، وكيفية تغليفه وتوزيعه. ويحدد الهيدرولوجيون مدى الارتفاع اللازم لبناء حواجز الفيضانات من خلال تحليل إحصائيات الأرصاد الجوية. ويبني المهندسون أنظمة الكمبيوتر باستخدام إحصائيات الموثوقية لضمان عدم تعطلها كثيرًا. وتُبنَى نُظُم مُراقَبَة الحركة الجوية على نماذج إحصائية معقَّدة، بحيث تعمل بشكل لحظي (أي في الزمن الحقيقي). وعلى الرغم من أنك قد لا تدرك ذلك، فإن الأفكار والأدوات الإحصائية كامنةٌ في كل جوانب الحياة الحديثة تقريبًا.

(٢) بعض التعريفات

أحد التعريفات الجيدة لعلم الإحصاء أنه «تكنولوجيا استخراج المعنى من البيانات». ومع ذلك، لا يوجد تعريف مثالي؛ فعلى وجه الخصوص، لا يُشير هذا التعريف إلى المصادفة والاحتمال، اللذين يُعدَّان دعامتين أساسيتين للعديد من تطبيقات الإحصاء؛ ومن ثم ربما يتمثَّل تعريف جيد آخَر في أنه «تكنولوجيا التعامل مع عدم اليقين». ومع هذا، قد تضع تعريفات أخرى، أو تعريفات أكثر دقة، مزيدًا من التركيز على الأدوار التي يلعبها علم الإحصاء. وهكذا يمكننا القول إن علم الإحصاء هو العلم الرئيس «للتنبؤ بالمستقبل» أو «لصنع استنتاجات حول المجهول» أو «لإنتاج ملخصات مناسبة من البيانات». وعند جمع هذه التعريفات معًا فإنها تغطِّي على نحو واسع جوهر هذا المجال، على الرغم من أن التطبيقات المختلفة ستوفِّر تجسيدات مختلفة جدًّا لهذا العلم؛ على سبيل المثال، اتخاذ القرارات والتنبؤ والرصد اللحظي والكشف عن الغش والتعداد السكاني وتحليل تسلسل الجينات كلها تطبيقات للإحصاء، ومع ذلك ربما تتطلب أساليبَ وأدوات مختلفة للغاية. وثمة شيء تجدر ملاحظته حول هذه التعريفات؛ هو أنني تعمدتُ اختيار كلمة «تكنولوجيا» بدلًا من علم؛ فالتكنولوجيا هي تطبيق للعلم واكتشافاته، وهذا هو ماهية الإحصاء؛ تطبيق فهْمنا لكيفية استخراج المعلومات من البيانات، وفهمنا لعدم اليقين. ومع ذلك، يُشار إلى الإحصاء أحيانًا على أنه علم. في الواقع، إحدى المجلات الإحصائية الأكثر إثارة وتشويقًا تُسمَّى بذلك الاسم فحسب: «العلوم الإحصائية».

وحتى الآن في هذا الكتاب — وعلى وجه الخصوص في الفقرة السابقة — تناولتُ «الإحصاء»، ويوجد شيء آخر سنتناوله في هذا الكتاب هو «الإحصائيات»، والإحصائية هي حقيقة رقمية أو ملخص؛ على سبيل المثال، ملخص للبيانات التي تَصِف بعض السكان؛ ربما حجم السكان أو معدَّل المواليد أو معدَّل الجريمة؛ إذن، يدور هذا الكتاب — من ناحية — حول الحقائق الرقمية الفردية. ولكن بالمعنى الحقيقي للغاية فهو يدور حول ما هو أكثر من ذلك بكثير؛ فهو يدور حول كيفية جمْع ومعالجة وتحليل واستنتاج أشياء من هذه الحقائق الرقمية. وهو يدور حول التكنولوجيا نفسها؛ وهذا يَعنِي أن القارئ الآمِل في أن يَجِدَ جداول أعداد في هذا الكتاب (على سبيل المثال «إحصائيات رياضية») فسوف يُصاب بخيبة أمل. ولكن القارئ الآمِل في التوصل لفهم كيفية اتخاذ الشركات للقرارات، وكيفية اكتشاف علماء الفلك لأنواع جديدة من النجوم، وكيفية تحديد الباحثين في مجال الطب للجينات المرتبطة بمرض معين، وكيفية اتخاذ البنوك قرارًا بمنح أو عدم منح شخصٍ ما بطاقةَ ائتمان، وكيفية تحديد شركات التأمين تكلفة القسط، وكيفية بناء مرشِّحات البريد المزعِج التي تمنع الإعلانات المزعِجة من الوصول إلى صندوق بريدك الإلكتروني، وما إلى ذلك؛ فإنه سوف يجد مأربه.

كل ما سبق يبيِّن الفارق بين المُسمَّيَيْن «الإحصاء» و«الإحصائيات»؛ فالإحصاء هو العلم الأساسي الشامل، أما الإحصائيات فيُقصَد بها الحقائق الرقمية أو الملخصات المندرجة تحت المظلَّة الكبرى لعلم الإحصاء.

استخدمتُ في تعريفي الأول كلمة «البيانات». وكلمة «بيانات» في الإنجليزية Data مشتقة من الكلمة اللاتينية datum بمعنى «شيء مُعطًى» المشتقة من dare بمعنى «يعطي». عادة ما تكون البيانات أرقامًا؛ نتائجَ قياساتٍ أو حساباتٍ أو غيرها من العمليات. ويمكن النظر لمثل هذه البيانات على أنها تقدِّم تمثيلًا مبسطًا لما ندرسه. فإذا كنَّا مهتمِّين بأطفال المدارس، وبخاصة قدرتهم الأكاديمية ومدى ملاءمتهم لأنواع المِهَن المختلفة، ربما نختار دراسة الأرقام التي تصف نتائجهم في مختلف الاختبارات والامتحانات.

وربما تمنحنا هذه الأرقام إشارة حيال قدراتهم وميولهم. باعتراف الجميع، لن يكون هذا التمثيل مثاليًّا؛ فربما تُشِير الدرجة المنخفضة ببساطةٍ إلى أن شخصًا ما كان يشعر بالمرض أثناء الامتحان. وعبارة «لم يحضر» لا تُخبِرنا بالكثير عن قدرة الطفل، ولكن تخبرنا فحسب أنه لم يَخُضْ الامتحان. سأتحدث بشكل أكثر استفاضة عن «جودة البيانات» في وقت لاحق، وهي مهمة بسبب المبدأ العام (الذي ينطبق على جميع جوانب الحياة، وليس فقط في الإحصائيات) القاضي بأنه إذا كانت المادة الخام التي تعمل عليها رديئة، فإن النتائج ستكون رديئة. يستطيع الإحصائيون فهْم أشياء كثيرة مذهلة من الأرقام، لكنهم لا يمكن أن يصنعوا المعجزات.

بطبيعة الحال، يبدو أن حالات كثيرة لا تُنتِج بيانات رقمية مباشرة؛ فالكثير من البيانات الخام قد تكون في شكل صور أو كلمات أو حتى أشياء مثل إشارات إلكترونية أو صوتية؛ ومن ثم فإن صور الأقمار الصناعية للمحاصيل أو تغطية الغابات المَطِيرة، والأوصاف اللفظية للآثار الجانبية التي تَحدث عند تناول الدواء، والأصوات الملفوظة عند التحدث؛ لا تأخذ مَظهَر الأرقام. ومع ذلك، يُظهِر الفحص الدقيق أنه عندما تُقاس هذه الأشياء وتُسجَّل، فإنها تُترجَم إلى تمثيلات رقمية أو إلى تمثيلات يمكن أن تُترجَم بعد ذلك إلى أرقام؛ على سبيل المثال، صور الأقمار الصناعية والصور الأخرى تُمثَّل بملايين العناصر الصغيرة التي تُسمَّى وحدات البكسل، وكلٌّ منها يوصف من حيث الشدة (الرقمية) للألوان المختلفة التي تشكِّلها. ويمكن معالَجة النص في صورة تعداد للكلمات أو مقاييس للتشابه بين الكلمات والعبارات؛ وهذا هو نوع التمثيل المستخدم من قِبَل محرِّكات البحث على شبكة الإنترنت مثل جوجل. وتُمثَّل الكلمات المنطوقة من خلال الكثافات الرقمية للأشكال الموجية التي تشكِّل الأجزاء المفردة من الكلام. وعلى نحو عام، رغم أنه ليست جميع البيانات أرقامًا، فإن معظم البيانات تُترجَم إلى شكل رقمي في مرحلةٍ ما. ومعظم الإحصائيات تتعامل مع البيانات الرقمية.

(٣) أكاذيب، أكاذيب بغيضة، ووضع الأمور في نصابها

نُسبت عبارة «ثمة أكاذيب، وأكاذيب بغيضة، وإحصائيات» — المذكورة في بداية هذا الفصل — على وجوه مختلفة إلى مارك توين وبنيامين دزرائيلي، وغيرهما. كما وَرَدَ على لسان العديد من الأشخاص تصريحات مماثلة؛ منها: «على غرار الأحلام، الإحصائيات هي شكل من أشكال تحقيق الرغبات» (جون بودريار، في كتاب «ذكريات جميلة»، الفصل الرابع)، و«… عبادة الإحصائيات أدَّتْ على نحو خاص إلى نتيجة مؤسِفة تمثَّلتْ في جعل مهمة الكاذب الصرف أسهل بكثير» (توم بورنام، في كتاب «قاموس التضليل»)، و«الإحصائيات هي «خُزَعْبِلات» مدعومة بالأرقام» (أودري هابيرا وريتشارد رونيون، في كتاب «الإحصائيات العامة»)، و«الإجراءات القانونية مثل الإحصائيات؛ إذا تلاعبتَ بها، يمكنك أن تثبت أيَّ شيء» (آرثر هيلي، في رواية «المطار»)، وما إلى ذلك.

من الواضح أنه يوجد كثير من الشك حيال الإحصائيات، وربما نتساءل أيضًا ما إذا كان هناك عنصر خوف من هذا المجال. من المؤكد أن الإحصائي غالبًا ما يلعب دور شخص يجب عليه توخِّي الحَذَر، وربما حتى يكون حاملَ الأخبار السيئة. والإحصائيون العاملون في البيئات البحثية — على سبيل المثال في كليات الطب أو السياقات الاجتماعية — ربما يكون عليهم شرح أن البيانات غير كافية للإجابة عن سؤال معين، أو أن الجواب ببساطة ليس ما أراد الباحث سَمَاعَه، وربما يكون هذا أمرًا مؤسفًا من وجهة نظر الباحث، ولكن ليس من الإنصاف إلقاء اللوم على حامل الرسالة الإحصائية.

في كثير من الحالات، تتولَّد الشكوك بسبب أولئك الذين يختارون الإحصائيات انتقائيًّا. فإذا كان هناك أكثر من طريقة لتلخيص مجموعة من البيانات، وتنبع كلٌّ منها بالنظر في جوانب مختلفة قليلًا، فإن الأشخاص المختلفين حينَها يمكن أن يختاروا التركيز على ملخصات مختلفة. وثمة مثال محدد في إحصائيات الجريمة؛ ففي بريطانيا، ربما يُعَدُّ أهم مصدر لإحصائيات الجريمة هو «استقصاء الجريمة البريطانية»، وهذا الاستقصاء يُقدِّر مستوى الجريمة عن طريق سؤال عيِّنة من الناس مباشرة عن الجرائم التي وقعوا ضحايا لها خلال العام الماضي. في المقابل، فإن سلسلة «إحصائيات الجرائم المسجَّلة» تشمل جميع الجرائم المُبلَّغ عنها إلى وزارة الداخلية والتي سجَّلتْها الشرطة. وبطبيعتها، لا تشمل هذه الإحصائيات بعض الجرائم البسيطة، وأهم من ذلك بطبيعة الحال أنها تستثني الجرائم التي لم تُبلَّغ عنها الشرطة في المقام الأول. وبوجود مثل هذه الاختلافات، ليس من المستغرَب أن الأرقام يمكن أن تختلف بين مجموعتَي الإحصائيات، لدرجة أن فئات معينة من الجرائم ربما تبدو آخِذة في التناقص على مر الزمن وفقًا لإحدى مجموعتَي الأرقام فيما تكون آخذة في التزايد وفقًا للمجموعة الأخرى.

أرقام إحصائيات الجريمة توضح أيضًا سببًا محتملًا آخر للتشكك في الإحصائيات؛ فعند استخدام مقياس معين كمؤشر لأداء نظامٍ ما، ربما يختار الأشخاص استهداف هذا المقياس، فيُحسنون قيمته ولكنْ على حساب جوانب أخرى من النظام؛ ومن ثم يتحسن المقياس المختار على نحو غير متكافئ، ويصبح عديم الفائدة كمقياس لأداء النظام؛ على سبيل المثال، يمكن للشرطة أن تقلل من معدل سرقة المتاجر من خلال تركيز كل مواردها على تلك الجريمة، على حساب السماح بزيادة أنواع أخرى من الجريمة؛ ونتيجة لذلك، فإن معدل سرقة المتاجر يصبح عديم الفائدة كمؤشر على معدل الجريمة. وقد سُمِّيت هذه الظاهرة باسم «قانون جودهارت»، تيمُّنًا بتشارلز جودهارت، وهو كبير مستشارين سابقًا في «مصرف إنجلترا».

الهدف من كل ذلك هو أن المشكلة لا تكمن في الإحصائيات في حد ذاتها، ولكن في استخدام تلك الإحصائيات، وسوء فهم كيفية إنتاج الإحصائيات، وما تعنيه الإحصائيات حقًّا. لعل من الطبيعي تمامًا أن نكون متشكِّكين حيال الأشياء التي لا نفهمها، والحل هو إزالة سوء الفهم.

مع ذلك، ثمة سبب آخر للتشكك ينشأ أساسًا نتيجة لطبيعة التقدم العلمي؛ ومن ثَمَّ، ربما نقرأ في يوم من الأيام في صحيفةٍ ما عن دراسة علمية تبيِّن أن نوعًا معينًا من الطعام ضارٌّ لنا، وفي اليوم التالي تُشِير إلى أنه مُفِيد. بطبيعة الحال يولِّد ذلك الْتِباسًا؛ أيْ شعورًا بأن العلماء لا يعرفون الجواب، وربما أنه لا يمكن الوثوق بهم. وحتمًا مثل هذه التحقيقات العلمية تَستخدم التحليلات الإحصائية على نحو مكثَّف؛ ومن ثم فإن بعضًا من هذه الشكوك ينتقل إلى الإحصائيات. ولكن جوهر التقدم العلمي هو تحقيق اكتشافات جديدة تغيِّر فهمنا؛ فرغم أننا كنَّا نظن في الماضي أن الدهون الغذائية ضارة لنا، فقد دفعَنا مزيد من الدراسات إلى إدراك أنه يوجد أنواع مختلفة من الدهون؛ بعضها مفيد وبعضها ضار. إن الصورة أكثر تعقيدًا مما كنَّا نعتقد في البداية؛ لذلك ليس من المستغرَب أن تؤدِّي الدراسات الأولية إلى استنتاجات تبدو متضاربة ومتناقضة.

والسبب الرابع للتشكك ينشأ من سوء فهم أوليٍّ لمبادئ الإحصاء. وكتمرين، ربما يحاول القارئ أن يحدد ما هو مثير للشكوك في كلٍّ من العبارات التالية (الأجوبة موجودة في التعليقات الختامية في آخِر الكتاب):

(١)
نقرأ في تقريرٍ ما أن التشخيص المبكِّر للمرض يؤدي إلى التمتع بمعدلات عمرية أطول؛ لذلك فإن برامج الفحص مفيدة.
(٢)
قيل لنا إن السعر المُعلَن خُفِّض بالفعل بنسبة خصم ٢٥٪ للعملاء المؤهَّلين، ولكننا لسنا مؤهَّلين؛ لذلك علينا دفع ٢٥٪ أكثر من السعر المُعلَن.
(٣)
نسمع تنبؤًا بأن متوسط العمر المتوقَّع سوف يصل إلى ١٥٠ عامًا في القرن المُقبِل، استنادًا إلى استقراء بسيط من الزيادات على مدى السنوات المائة الماضية.
(٤)
قيل لنا: «منذ عام ١٩٥٠، تَضاعَف كلَّ عام عددُ الأطفال الأمريكيين الذين تعرضوا لحادث إطلاق نار.»

أحيانًا لا يكون سوء الفهم أوليًّا للغاية، أو على الأقل، ينشأ عن مفاهيم إحصائية عميقة نسبيًّا. سيكون مستغربًا ألَّا يوجد بعض الأفكار العميقة المناقضة للبديهة في الإحصاء بعد أكثر من قرن من التطور. وتتمثل إحدى هذه الأفكار فيما يُعرَف باسم «مُغالَطة المدعي»، وتصف الخلط بين احتمال أن شيئًا ما سوف يكون صحيحًا (على سبيل المثال، المتهم مذنب) إذا كان لديك بعض الأدلة (على سبيل المثال، قفازات المدعَى عليه في مسرح الجريمة)، مع احتمال العثور على هذا الدليل إذا كنتَ تفترض أن المتهم مذنب. وهذا خلط شائع — ليس في المحاكم فحسب — وسوف نتناوله على نحو أوثق في وقت لاحق.

إذا كان هناك شك وعدم ثقة في الإحصائيات، فمِن الواضح أن اللوم لا يَقَع على الإحصائيات أو كيفية حسابها، وإنما يقع على طريقة استخدام تلك الإحصائيات. وليس من العدل إلْقاء اللوم على العلم، أو الإحصائي الذي يَستخرج المعنى من البيانات؛ بل إن اللوم يقع على أولئك الذين لا يفهمون ما تقوله الأرقام، أو الذين يتعمَّدون إساءة استخدام النتائج؛ فنحن لا نلوم البندقية على قتْل أحدهم، بل الشخص الذي أطلق الرصاص من البندقية هو المَلُوم.

(٤) البيانات

رأينا أن البيانات هي المادة الخام التي بُنِي عليها الإحصاء، وكذلك هي المادة الخام التي تُحسب منها الإحصائيات الفردية نفسُها، وأن هذه البيانات عادةً ما تكون أرقامًا. ومع ذلك، فإن البيانات في الواقع أكثر من مجرد أرقام. ولكي تكون مفيدة — أيْ تمكِّننا من القيام ببعض التحليلات الإحصائية ذات المغزى — يجب أن ترتبط هذه الأرقام بمعنًى؛ فعلى سبيل المثال، نحن بحاجة إلى معرفةِ ما «تَقِيسه» القياسات، وما تم عَدُّه عندما يُعرض علينا تعداد. ولتحقيق نتائج صحيحة ودقيقة عندما نقوم بتنفيذ تحليل إحصائي، نحتاج أيضًا أن نعرف شيئًا عن كيفية الحصول على هذه القِيَم. هل أجاب جميع مَن سألناهم على الاستبيان، أم أجاب بعض الأشخاص فحسب؟ وإذا أجاب بعض الأشخاص فحسب، فهل هم يمثِّلون المجموعة التي نودُّ أن نُدلِيَ ببيان حولَها على نحو ملائم أم إن العينة مشوَّهة بطريقةٍ ما؟ هل، على سبيل المثال، تَستبعِد عيِّنتنا الشبابَ على نحو غير متكافئ؟ وبالمثل، فإننا بحاجة إلى معرفةِ ما إذا انسحب مرضى من التجارب السريرية، وما إذا كانت البيانات مُحدَّثة أم لا. ونحتاج إلى معرفة ما إذا كانت أداة القياس موثوقًا بها أم لا، أو هل كانت لديها قيمة قصوى تُسجَّل عندما تكون القيمة الحقيقية مرتفِعة على نحو مفرط. هل لنا أن نفترض أن معدل النبض الذي سجَّلتْه الممرضة دقيق أم إنه قِيمة تقريبية فحسب؟ ثمة عدد لا حصر له من مثل هذه الأسئلة يمكن طرحه، ونحتاج إلى أن نكون متنبِّهين لتلك الأسئلة التي يمكن أن تؤثِّر على النتائج التي نستخلصها. وإذا لم نفعل ذلك، فستصبح الشكوك من النوع المذكور آنفًا مشروعة تمامًا.

تتمثَّل إحدى طرق النظر إلى البيانات في اعتبارها «أدلة»؛ فبدون بيانات، تصبح أفكارنا ونظرياتنا حيال العالم محض تكهنات. وتوفِّر البيانات معرفةً أساسيةً تربط أفكارنا ونظرياتنا بالواقع، وتسمح لنا بالتحقق من صحة فهمنا واختباره. بعد ذلك تُستخدَم الأساليب الإحصائية لمقارنة البيانات مع أفكارنا ونظرياتنا، لنرى مدى توافق بعضها مع بعض. وسوء التوافق يدفعنا إلى التفكير مرة أخرى وإعادة تقييم أفكارنا وإعادة صياغتها لكي تتطابق على نحو أفضل مع الواقع المرصود. ولكن ربما يجدر وضع ملاحظة تحذيرية هنا؛ وهي أن سوء التوافق يمكن أيضًا أن يكون ناتجًا عن سوء جودة البيانات. يجب أن نكون منتبهين لهذا الاحتمال؛ فربما تكون نظرياتنا سليمة ولكن قد تكون أدوات القياس مَعيبةً بطريقةٍ ما. ومع ذلك، فالتطابق الجيد بين البيانات المرصودة وما تقوله نظرياتنا عمَّا ينبغي أن تكون عليه البيانات يؤكد عمومًا على أننا على الطريق الصحيح. وذلك يؤكد على أن أفكارنا تعكس حقًّا حقيقةَ ما يجري.

يستتبع ذلك ضمنًا أنه لكي تكون أفكارنا ونظرياتنا ذات مغزًى، يجب أن تُسفِر عن توقعات يمكن مقارنتها مع البيانات الموجودة لدينا. فإذا لم تُخبِرنا النظريات بما ينبغي أن نتوقع ملاحظته، أو إذا كانت التوقعات عامة للغاية بحيث إن أي بيانات سوف تتوافق مع نظرياتنا، فإنها لن تكون ذات فائدة كبيرة؛ فأي بيانات ستتوافق معها. وقد انتُقد التحليل النفسي والتنجيم على هذه الأسس.

كما تسمح البيانات لنا بتحسس طريقنا عبر العالم المعقَّد؛ باتخاذ قرارات حول أفضل الإجراءات التي يجب القيام بها؛ فنحن نأخذ قياساتنا، ونحسب المجاميع الكلية، ونستخدم الأساليب الإحصائية لاستخراج المعلومات من هذه البيانات لوصف الكيفية التي يسير بها العالم وما علينا أن نفعل لجعله يسير على النحو الذي نريد. وهذه المبادئ توضحها أشياء مثل الطيار الآلي في الطائرة، وأنظمة المِلاحة بالأقمار الصناعية في السيارات، والمؤشرات الاقتصادية مثل معدل التضخم والناتج المحلي الإجمالي، ومراقبة المرضى في وحدات العناية المركزة، وتقييم السياسات الاجتماعية المعقدة.

ونظرًا للدور الأساسي الذي تلعبه البيانات بوصفها الرابط بين ملاحظاتنا للعالم من حولنا وبين أفكارنا وفهمنا لهذا العالم، فإنه ليس من قَبِيل المبالغة أن نَصِفَ البيانات — وتكنولوجيا استخراج المعنى منها — باعتبارها حجر الأساس للحضارة الحديثة. وهذا هو السبب في أنني استخدمتُ العنوان الفرعي «كيف تتحكم البيانات في عالمنا؟» لكتابي «توليد المعلومات» (انظر قسم القراءات الإضافية).

(٥) علم الإحصاء الأعظم

على الرغم من أن جذور مجال الإحصاء يمكن تتبعها لزمن بعيد للغاية، فإن مجال الإحصاء نفسه في الحقيقة يبلغ من العمر بضعة قرون فحسب. تأسست الجمعية الإحصائية الملكية في عام ١٨٣٤، والجمعية الإحصائية الأمريكية في عام ١٨٣٩، في حين أنه لم يُنشأ قسم للإحصاء في أي جامعة في العالم حتى عام ١٩١١، حين حدث ذلك في يونيفرسيتي كوليدج في لندن. تضمن مجال الإحصاء المبكر عدة فروع، تجمَّعَت في نهاية المطاف لتصبح علم الإحصاء الحديث. تَمثَّل أحد هذه الفروع في فهم الاحتمالات، وهو أمر يعود تاريخه إلى منتصف القرن السابع عشر، ونبع جزئيًّا من الأسئلة المتعلِّقة بالمقامرة. وتَمثَّل آخَر في إدراك أن القياسات نادرًا ما تكون خالية من الأخطاء، ولذلك وُجدت حاجة إلى بعض التحليل لاستخراج معنًى معقول منها. وفي السنوات الأولى، كان هذا مهمًّا، خصوصًا في علم الفلك. ولكن كان يوجد فرع آخر وهو الاستخدام التدريجي للبيانات الإحصائية لتمكين الحكومات من إدارة بلدانها. وفي الواقع، هذا الاستخدام هو الذي أدَّى إلى ظهور كلمة Statistics بمعنى «إحصائيات»؛ فهي بيانات عن الدولة State. وتمتلك كل الدول المتقدمة الآن مكاتب إحصاء وطنية خاصة بها.

مرَّ علم الإحصاء، خلال تطوره، بعدة مراحل. تميَّزت المرحلة الأولى — التي امتدَّت حتى نهاية القرن التاسع عشر تقريبًا — بالاستكشافات العشوائية للبيانات. ثم شهد النصف الأول من القرن العشرين اكتساب الإحصاء للصبغة الرياضية، لدرجة أن الكثيرين رأَوْها فرعًا من الرياضيات (إنها تتعامل مع الأرقام، أليس كذلك؟) وبالفعل، لا يزال الإحصائيون في الجامعة غالبًا ما يدرسون الإحصاء داخل أقسام الرياضيات. شَهِد النصف الثاني من القرن العشرين ظهور الكمبيوتر، وكان هذا التغيير هو الذي ارتَقَى بالإحصاء من كونها عملًا صعبًا إلى عمل مُمْتِع؛ فقد أزال الكمبيوتر الحاجة لامتلاك ممارسي الإحصاء لمهارات حسابية خاصة، فلم يعودوا بحاجة لقضاء ساعات طويلة في معالجة الأرقام. وهذا مماثل للتغيير من الحاجة إلى المشي إلى كل مكان للقدرة على قيادة السيارة؛ فالرحلات التي كانت تستغرق في السابق أيامًا أصبحتِ الآن تستغرق دقائق، والرحلات التي كانت طويلة للغاية لدرجة تمنَع التفكير فيها أصبحت الآن ممكنة.

شهد النصف الثاني من القرن العشرين أيضًا ظهور مدارس أخرى لتحليل البيانات، لا تعود أصولها لعلم الإحصاء الكلاسيكي ولكنْ لمجالات أخرى، خاصة علوم الكمبيوتر. وتشمل هذه المدارس التعلم الآلي والتعرف على الأنماط والتنقيب عن البيانات. وبينما تطورت هذه التخصصات الأخرى، كانت تحدث في بعض الأحيان توترات بين هذه المدارس المختلفة والإحصاء. ومع ذلك، فالحقيقة هي أن وجهات النظر المتفاوتة التي تقدِّمها هذه المدارس المختلفة ساهمت جميعها بشيء في تحليل البيانات، إلى حدِّ أن الإحصائيين الجدد في الوقت الحالي يختارون بحُرية من الأدوات التي توفِّرها جميع هذه المجالات. وسأذكر بعض هذه الأدوات في وقت لاحق. بوضع هذا في الاعتبار، سوف أتبنَّى في هذا الكتاب تعريفًا واسعًا للإحصاء، مهتديًا بتعريف «علم الإحصاء الأعظم» الذي قدَّمه الإحصائي البارز جون تشامبرز، الذي قال: «يمكن تعريف علم الإحصاء الأعظم ببساطة — وإنْ كان على نحو غير مُحكَم — بأنه كل ما يتعلق «بالتعلم من البيانات»، من التخطيط أو الجمع الأول حتى العرض أو التقرير الأخير.» أما محاولة وضْع حدود بين تخصصات تحليل البيانات المختلفة، فهي عملية غير مُجدِية ولا طائل من ورائها.

إذن، علم الإحصاء الحديث لا يَدُور حول الحساب، وإنما يدور حول «الاستقصاء»، بل إن البعض وَصَفَ علم الإحصاء بأنه «تطبيق الأسلوب العلمي». ومع أننا ما زلنا نجد في كثير من الأحيان أن العديد من الإحصائيين يعملون انطلاقًا من أقسام الرياضيات في الجامعات كما أشرتُ آنفًا، فإننا نَجِدهم أيضًا في كليات الطب وأقسام العلوم الاجتماعية، بما في ذلك الاقتصاد والعديد من الأقسام الأخرى التي تتراوح بين الهندسة إلى علم النفس. وفي خارج الجامعات، تعمل أعداد كبيرة في الحكومة والصناعة، وفي القطاع الدوائي، والتسويق، والاتصالات، والخدمات المصرفية، ومجموعة كبيرة من المجالات الأخرى، فجميع المُديرين يعتمدون على المهارات الإحصائية لمساعدتهم في تفسير البيانات التي تَصِف أقسامهم وشركاتهم وإنتاجهم والموظفين وما إلى ذلك. لا يستخدم هؤلاء الأشخاص الرموز والصيغ الرياضية، ولكن يستخدمون الأدوات والأساليب الإحصائية لاكتساب المعرفة والفهم من الأدلة؛ أي البيانات. وللقيام بذلك، فإنهم يحتاجون إلى دراسة مجموعة واسعة من الأمور غير الرياضية في جوهرها؛ مثل جودة البيانات، وشكلها وكيفية جمعها، وتحديد المشكلة، وتحديد الهدف الأكبر للتحليل (الفهم والتنبؤ والقرار، وما إلى ذلك)، مع تحديد مقدار عدم اليقين المرتبط بالنتائج، ومجموعة من الأمور الأخرى.

كما آمل أن يكون قد اتضح مما سبق، فإن علم الإحصاء كلِّيُّ الوجود؛ إذ يتخلل جميع مناحي الحياة. وقد كان لذلك تأثير متبادَل على تطور علم الإحصاء نفسه؛ فبينما طُبقت الأساليب الإحصائية في مجالات جديدة، أدت المشاكل والمتطلبات والخصائص المعينة لتلك المجالات إلى تطوير أساليب وأدوات إحصائية جديدة. وبعد ذلك، بمجرد أن طُورت هذه الأساليب والأدوات الجديدة، انتشرت ووجدت تطبيقات لها في مجالات أخرى.

(٦) بعض الأمثلة

مثال ١: فَلْترة البريد المزعج

«البريد المزعج» هو مصطلح يُستخدم لوصف رسائل البريد الإلكتروني غير المرغوب فيها المُرسَلة تلقائيًّا إلى العديد من المتسلِّمِين؛ عادةً ما يَصِل عددهم إلى ملايين المتسلِّمِين. هذه الرسائل رسائل دعائية، وغالبًا ما تكون مُزعِجة، وربما تكون واجهات لمُحتالِين. وهي تشمل أشياء مثل عروض دمج الديون، وخطط الثراء السريع، والأدوية التي لا تُصرَف إلا بوصفة طبية، ونصائح حول سوق الأسهم، وأدوات جنسية غريبة. والمبدأ الأساسي في هذه الرسائل هو أنه إذا راسلتَ عددًا كافيًا من الناس، من المحتمل أن يُصبِح بعضهم مهتمًّا — أو ينخدع — بعرضك. وما لم تكن الرسائل آتية من منظمات طُلب منها على وجه التحديد معلومات، فإن معظمها لن يكون مثيرًا للاهتمام، ولن يرغب أحد في تضييع وقته في قراءتها وحذفها. وهو ما يقودنا إلى مرشحات البريد المزعج؛ وهي برامج حاسوبية تفحص تلقائيًّا رسائل البريد الإلكتروني الواردة وتحدد الرسائل التي من المحتمل أن تكون غير مرغوب فيها. ويمكن برمجة المرشحات بحيث يَحذف البرنامج الرسائل غير المرغوب فيها تلقائيًّا، أو يرسلها إلى مجلد تخزين للفحص لاحقًا، أو يتخذ بعض الإجراءات الأخرى المناسبة. توجد تقديرات مختلفة لكمية البريد المزعج التي تُرسل، ولكن في وقت كتابة هذا الكتاب، يُشير أحد التقديرات إلى أنه ترسل أكثر من ٩٠ مليار رسالة من البريد غير المرغوب فيه كل يوم؛ وبما أن هذا العدد يرتفع ارتفاعًا كبيرًا كل شهر، فمن المرجح أن يكون أكبر بكثير في وقت قراءتك لهذا الكتاب.

ثمة تقنيات عديدة لمنع البريد غير المرغوب فيه. تتحقق بعض الطرق البسيطة للغاية فحسب من وجود كلمات أساسية في الرسالة؛ على سبيل المثال، إذا كانت رسالة تتضمن كلمة viagra «فياجرا»، ربما تُحظر. ومع ذلك، فإن إحدى خصائص رصد البريد المزعج هي أنها تشبه سباق التسلح؛ فبمجرد أن يدرك المسئولون عن الرسائل أن رسائلهم حُظرت بطريقة معينة، يسعَوْن إلى أساليب للالتفاف حول هذه الطريقة؛ على سبيل المثال، ربما يتعمدون كتابة viagra على نحو خاطئ في صورة v1agra أو v-iagra؛ بحيث يمكنك التعرف عليها ولكن دون أن يتمكن البرنامج التلقائي من التعرف عليها.

تستند أدوات رصد البريد غير المرغوب فيه الأكثر تطورًا على نماذج إحصائية للمحتوى الكلامي لرسائل البريد غير المرغوب فيه؛ فعلى سبيل المثال، ربما تَستخدم تقديرات لاحتمالات وجود كلمات معينة أو مجموعات من الكلمات التي تَظهَر في رسائل البريد غير المرغوب فيه. وبعد ذلك، تُصبِح الرسالة التي تحتوي على الكثير من الكلمات العالية الاحتمال موضعَ شَكٍّ. وتبني الأدوات الأكثر تطورًا نماذج لاحتمالية أن كلمة واحدة ستتبع كلمة أخرى في تسلسل؛ ومن ثَمَّ تتمكن من رصد العبارات ومجموعات الكلمات المشبوهة. علاوة على ذلك، تستخدم أساليب أخرى نماذج إحصائية للصور لرصد أشياء مثل لون البشرة في الصورة المرسلة عبر البريد الإلكتروني.

مثال ٢: قضية سالي كلارك

في عام ١٩٩٩، خضعت سالي كلارك — وهي محامية بريطانية شابة — للمحاكمة وأُدينت وحُكم عليها بالسجن مدى الحياة لقتْلها طفلَيْها. توفي طفلها الأول في عام ١٩٩٦، عن عمر يبلغ ١١ أسبوعًا، ومات طفلها الثاني في عام ١٩٩٨، عن عمر يبلغ ٨ أسابيع. واعتمد الحكم على ما أصبح نموذجًا لسوء فهم واستخدام الإحصائيات، عندما ادَّعى طبيب الأطفال السير روي مِدو، في دوره كشاهد خبير لصالح الادِّعاء، أن احتمالية الموت المفاجئ لطفلين كانت ١ من بين ٧٣ مليون حالة. وقد حصل على هذا الرقم ببساطة عن طريق ضرب احتمالية حالتَي الوفاة معًا على نحو منفصل. وبقيامه بذلك، ولجهله بأساسيات الإحصاء، تجاهَل تمامًا حقيقة أن حدوث واحدة من حالات الوفاة تلك في أي أسرة من المرجح أن يعني ارتفاع احتمالية حدوث وفاة أخرى.

تُبيِّن دراسة البيانات السابقة أن احتمال تعرُّض أي طفل مختار عشوائيًّا للموت المفاجئ في أسرة مثل أسرة كلارك يبلغ حوالي ١ / ٨٥٠٠. وإذا افترضنا بالتبعية أن وقوع حالة وفاة مثل هذه لا يُغير احتمال وقوع حالة أخرى، فإن فرصة وقوع حالتين من هذه الوفيات في الأسرة نفسها ستكون ١ / ٨٥٠٠ مضروبًا في ١ / ٨٥٠٠؛ أي واحدًا من ٧٣ مليونًا. بَيْدَ أن هذا الافتراض جريء، ويُشير التحليل الإحصائي الدقيق للبيانات السابقة إلى أنه في الواقع تزداد فرصة حدوث موت مفاجئ ثانٍ كثيرًا عند وقوع حالة مماثلة قبل ذلك بالفعل. وفي الواقع، تشير الحسابات إلى أن العديد من حالات الوفاة المتعدِّدة تلك ينبغي أن يُتوقَّع حدوثها كل عام في دولة بحجم المملكة المتحدة. ويقول الموقع الإلكتروني لمؤسسة دراسة أسباب موت الأطفال: «من النادر جدًّا حدوث الموت المفاجئ مرتين في الأسرة نفسها، على الرغم من أن اضطرابًا وراثيًّا في بعض الأحيان — مثل وجود خلل أيضي — قد يسبب موتَ أكثرَ من رضيع على نحو غير متوقع.»

في قضية سالي كلارك، كان يوجد مزيد من الأدِلَّة التي تُشِير إلى براءتها، وفي النهاية أصبح من الواضح أن ابنَها الثاني كان يُعانِي عَدْوَى بكتيرية معروفًا أنها تسبِّب موت الرضيع المفاجئ. وأطلق سراح السيدة كلارك بعد ذلك في الاستئناف في عام ٢٠٠٣. ومن المأساوي أنها توفيت في مارس من عام ٢٠٠٧ عن عمر يبلغ ٤٢ عامًا فحسب. ويوجد مزيد من التفاصيل عن سوء الفهم الرهيب وسوء استخدام الإحصائيات في مقال ممتاز كتبتْه هيلين جويس على الموقع المذكور في قسم القراءات الإضافية في نهاية هذا الكتاب.

مثال ٣: عناقيد النجوم

مع ازدياد قدرتنا على سَبْر المزيد والمزيد من أغوار الكون، أصبح من الواضح أن الأجرام السماوية تميل إلى التجمُّع معًا، وتفعل ذلك بطريقة هرمية؛ حيث تشكل النجوم عناقيد، وعناقيد النجوم نفسها تشكل عناقيد على مستوًى أعلى، وهذه العناقيد الأعلى تتجمع بدَوْرها في عناقيد أكبر. وعلى وجه التحديد، مجرَّتنا — والتي هي عنقود من النجوم — جزء من «المجموعة المحلية» المكونة من حوالي ثلاثين مجرَّة، وهذه المجموعة بدورها جزء من «العنقود المجرِّي المحلي الهائل». على النطاق الأوسع، يبدو الكون بالأحرى مثل الرغوة، مع وجود خيوط تتكون من عناقيد مجرية فائقة واقعة على حواف مساحات فارغة شاسعة. ولكن كيف اكتُشف كل هذا؟ فحتى لو استخدمنا تلسكوبات قوية للنظر خارج الأرض، فإننا نرى ببساطة سماءً مليئة بالنجوم. والجواب هو أن استنتاج وجود هذا الهيكل العنقودي — بل واكتشافه في المقام الأول — تَطلَّب تقنيات إحصائية. وتشمل إحدى فئات هذه التقنيات حساب المسافات بين كل نجم وعدد قليل من النجوم الأقرب إليه. والنجوم التي يكون عدد النجوم القريبة منها أكبر مما هو متوقَّع تكون واقعة في مناطق كثيفة محليًّا؛ أي إنها تشكِّل عناقيد محلية.

بالطبع، يتعلق الأمر بأكثر من ذلك بكثير؛ فسُحُب الغبار بين النجوم ستَحجب رؤية الأشياء البعيدة، وسحب الغبار هذه ليست موزَّعة على نحو موحَّد في الفضاء. وبالمثل، لن تُرى الأجرام الباهتة إلَّا إذا كانت قريبة بما فيه الكفاية من الأرض. والخيط الرفيع من المجرات الذي ترى نهايته من الأرض يمكن أن يبدو كعنقود كثيف، وهكذا. وينبغي تطبيق تصحيحات إحصائية متطورة حتى نتمكن من تمييز الحقيقة الكامنة من التوزيعات الظاهرية للأجرام السماوية.

إن فَهْم بنية الكون يُلقِي الضوء على كيفية تشكُّله، وعلى تطوُّره المستقبلي.

مثال ٤: تصنيع المواد الكيميائية

أشرتُ بالفعل إلى أنه في حين أن الإحصائيين ربما يكونون قادرين على القيام بأمور مذهلة، فإنهم لا يمكن أن يحققوا معجزات؛ وبالتحديد، سوف تتحدد جودة استنتاجاتهم دومًا بجودة البيانات. في ضوء هذا الأمر، ليس من المستغرب وجود تخصصات فرعية مهمة في الإحصاء معنية بأفضل السُّبُل لجمع البيانات، وتُناقَش هذه التخصصات الفرعية في الفصل الثالث. يتمثل أحد هذه التخصصات الفرعية في «التصميم التجريبي»، وتُستخدم تقنيات التصميم التجريبي في الحالات التي من الممكن فيها التحكم أو التلاعب في بعض «المتغيرات» الخاضعة للدراسة. وتُمكِّننا أدوات التصميم التجريبي من استخراج أقصى قدر من المعلومات بالنسبة لأي استخدام معين للموارد؛ فعلى سبيل المثال، في إنتاج بوليمر كيميائي معين ربما نكون قادرين على ضبط درجة الحرارة والضغط ووقت التفاعل الكيميائي بأي قِيَم نريدها. والقِيَم المختلفة لهذه المتغيرات الثلاثة ستؤدي إلى اختلافات في جودة المنتج النهائي. والسؤال هو: ما هي أفضل مجموعة من القيم؟

مبدئيًّا، هذا سؤال يَسهُل الإجابة عنه؛ فنصنع ببساطة العديد من كميات البوليمر، لكلٍّ منها قِيَم مختلفة من المتغيرات الثلاثة. وهذا يسمح لنا بتقدير «استجابة السطح»، والتي تبيِّن جودة البوليمر عند كل مجموعة من قِيَم المتغيرات الثلاثة، ويمكننا بعد ذلك اختيار القِيَم الثلاث المحددة التي تزيد الجودة إلى الحد الأقصى.

ولكن ماذا لو كانت عملية التصنيع من النوع الذي يستغرق عدة أيام لصنع كل كمية؟ إن صنع العديد من هذه الكميات لمجرد التوصل إلى أفضل طريقة للقيام بذلك ربما يكون أمرًا صعب التنفيذ؛ فصنع مائة كمية، يستغرق صنع كلٍّ منها ثلاثة أيام، سيستغرق الجزء الأكبر من عام كامل. لحسن الحظ، التجارب المصمَّمة بذكاء تسمح لنا باستخراج المعلومات نفسها من مجموعات مختارة بعناية من القِيَم عددها أقلُّ بكثير. وفي بعض الأحيان يمكن لنسبة ضئيلة من الكميات أن تمنحنا معلومات كافية لتحديد أفضل مجموعة من القِيَم، شريطة أن تُختار تلك الكميات على نحو صحيح.

مثال ٥: رضا العملاء

إن إدارة أي مؤسسة للبيع بالتجزئة على نحو فعَّال، بحيث تحقق ربحًا وتنمو مع مرور الوقت، تتطلب إيلاء اهتمام دقيق للعملاء، ومنحَهم المنتج أو الخدمة التي يريدونها. والفشل في القيام بذلك يعني أنهم سيتوجهون إلى مُنافِس يقدِّم ما هو مطلوب. بيت القصيد هنا هو أن الفشل سوف يتضح من انخفاض الإيرادات. ويمكننا محاولة تجنُّب ذلك من خلال جمع بيانات حول مشاعر العملاء قبل أن يبدءوا التصويت بأموالهم. ويمكننا تنفيذ دراسات مسحية لرضا العملاء، سائلين العملاء ما إذا كانوا سعداء بالمنتج أو الخدمة أم لا، وعن الطرق التي يمكن من خلالها تحسين ذلك.

للوهلة الأولى قد يبدو أنه من الضروري منح الاستبيانات لجميع العملاء من أجل الحصول على نتائج موثوقة تعكس سلوك قاعدة العملاء بأكملها، لكن من الواضح أن هذه عملية مكلِّفة وتستغرق وقتًا طويلًا. ومع ذلك، توجد — لحسن الحظ — أساليب إحصائية تُمكِّن من الحصول على نتائج دقيقة بما فيه الكفاية من عيِّنة من العملاء فحسب. وفي الواقع، يمكن أن تكون النتائج أحيانًا أكثر دقة من إشراك جميع العملاء. ولا حاجة بنا لقول إنه يلزم وجود عناية كبيرة في هذه العملية؛ فمن الضروري أن نكون حَذِرين من بناء استنتاجات على عينة مشوهة؛ فربما ستكون النتائج غير مُجدِية في وصف كيفية تصرف العملاء عمومًا إذا أُجريت المقابلات مع أولئك الذين ينفقون مبالغ كبيرة من المال فحسب. ومرة أخرى، طُورت الأساليب الإحصائية التي تمكِّننا من تجنُّب مثل هذه الأخطاء؛ ومن ثم استخلاص استنتاجات صحيحة.

مثال ٦: كشف الاحتيال ببطاقات الائتمان

ليست كل معاملات بطاقات الائتمان شرعية. والمعاملات الاحتيالية تكلف البنك أموالًا، وكذلك تكلف عملاء البنك أموالًا؛ ومن ثم فإن كشف الاحتيال ومَنْعه أمرٌ مُهِمٌّ للغاية. ربما مر العديد من قُرَّاء هذا الكتاب بتجربةِ تلقِّي اتصال هاتفي من المصرف للتأكد من أنهم قاموا ببعض المعاملات. تستند هذه المكالمات الهاتفية على توقعات تقدمها نماذج إحصائية تحدد مدى شرعية تصرفات العملاء. والخروج عن السلوك الذي تتنبَّأ به هذه النماذج يُشِير إلى أن شيئًا مريبًا يجري ويستحق التحقق منه.

توجد أنواع عديدة من النماذج، يعتمد بعضها ببساطة على أنماط السلوك المثيرة للشكوك في جوهرها؛ مثل الاستخدام المتزامن لبطاقة واحدة في مكانين بعيدَيْن جغرافيًّا. ويستند البعض الآخَر على نماذج أكثر تفصيلًا لأنواع المعاملات التي يقوم بها الشخص عادة، ومتى يميل إلى القيام بها، وكمية المال المستخدم، وفي أي أنواع المنافذ، ولأي أنواع المنتجات، وما شابه ذلك.

بطبيعة الحال، لا يوجد نموذج تنبُّئي كامل؛ فغالبًا ما تتنوع أنماط معاملات بطاقة الائتمان؛ حيث إن الناس قد يشترون فجأة منتجات لم يَشتَرُوها من قبلُ. علاوة على ذلك، نسبة ضئيلة فحسب من المعاملات تكون احتيالية؛ ربما حوالي واحد في الألف. وهذا يجعل كشف الاحتيال شديد الصعوبة.

إن كشف الاحتيال ومنعه معركة مستمرة؛ فعند سدِّ أحَدِ سُبُل الاحتيال، فإن المحتالين لا يميلون إلى التخلِّي عن مسارهم الذي اختاروه والحصول على وظيفة مشروعة، بل يتجهون إلى أساليب أخرى للاحتيال؛ ومن ثم فإن ذلك يتطلب تطوير المزيد من النماذج الإحصائية.

مثال ٧: التضخم

إننا جميعًا نألف فكرة أن الأشياء تزداد غلاءً بمرور الوقت. ولكن كيف يمكننا مقارنة تكاليف المعيشة اليوم بتكاليف المعيشة أمس؟ للقيام بذلك، نحتاج إلى مقارنة الأشياء نفسها التي اشتريناها في اليومين. لكن للأسف، توجد تعقيدات؛ فالمحلات التجارية المختلفة تحدد أسعارًا مختلفة للأشياء نفسها، والأشخاص المختلفون يشترون أشياء مختلفة، ويغير الأشخاص أنفسهم أنماط شرائهم، وتَظهَر منتجات جديدة في السوق وتختفي منتجات قديمة، وما شابه ذلك. كيف نضع مثل هذه التغييرات في الاعتبار عند تحديدِ ما إذا كانت الحياة أكثر تكلفة هذه الأيام أم لا؟

أنشأ الإحصائيون والاقتصاديون مؤشرات مثل «مؤشر أسعار التجزئة» و«مؤشر أسعار المستهلك» لقياس تكاليف المعيشة. وتستند هذه المؤشرات إلى «سلَّة» افتراضية للسلع (مئات منها) التي يشتريها الناس، إضافة إلى دراسات استقصائية لاكتشاف الأسعار التي يُباع بها كل عنصر في السلة. وتُستخدم نماذج إحصائية متطورة لجمع أسعار العناصر المختلفة لتقدم رقمًا إجماليًّا واحدًا يمكن مقارنته على مدار الزمن. وبالإضافة إلى كونها مؤشرًا على التضخم، تستخدم هذه المؤشرات أيضًا لضبط حدود الإعفاء الضريبي والرواتب المرتبطة بالمؤشر والمعاشات التقاعدية، وما إلى ذلك.

خاتمة

رغم أن هذا قد لا يبدو واضحًا دائمًا للعين غير الخبيرة، فإن علم الإحصاء والأساليب الإحصائية يَكْمُنان في قلب الاكتشاف العلمي، والعمليات التجارية والحكومية، والسياسة الاجتماعية، والتصنيع، والطب، ومعظم جوانب النشاط الإنساني الأخرى. علاوة على ذلك، كلما تقدم العالَم، زادت أهمية هذا الدور أكثر وأكثر؛ على سبيل المثال، منذ وقت طويل وتطويرُ أدوية جديدة يشترط، قانونًا، مشاركةَ الإحصائيين، وشيء من هذا القبيل يحدث الآن في الصناعة المصرفية؛ حيث إن الاتفاقات الدولية الجديدة تتطلب وضع نماذج إحصائية للمخاطر. ونظرًا لهذا الدور المحوري، من المهم بوضوح أن يكون أي مُواطن مستنير على علم بالمبادئ الإحصائية الأساسية.

يمكِّننا علم الإحصاء الحديث، الذي يستخدم البرمجيات المتطورة لدراسة البيانات، من القيام برحلات استكشاف مشابهة لتلك التي قام بها المستكشفون قبل القرن العشرين؛ إذ استقصَوْا ودرسوا عوالم جديدة ومثيرة. وهذا الإدراك — أن علم الإحصاء الحقيقي يتمحور حول استكشاف المجهول، ولا يتمحور حول عمليات حسابية مُمِلَّة — أساسيٌّ في تقدير قيمة هذا العلم الحديث.