الفصل الثالث

جمع بيانات صالحة

البيانات الخام مثل البطاطس الخام؛ عادةً ما تتطلب تنظيفًا قبل الاستخدام.

رونالد إيه ثيستد

توفِّر البيانات نافذة على العالم، ولكن من المهم أن تمنحنا رؤية واضحة. إن النافذة التي تُعانِي من الخدوش أو التشوهات أو وجود علامات على زجاجها من المرجَّح أن تضلِّلنا حيال ما يكمن وراءَها، وينطبق الأمر نفسه على البيانات. فإذا كانت البيانات مشوَّهة أو تالِفة بطريقةٍ ما، يمكن بسهولة أن تنشأ عنها استنتاجات خاطئة. وعمومًا، ليست كل البيانات ذات جودة عالية. في الواقع، يمكنني أن أتعمق أكثر وأشير إلى أنه من النادر أن تقابل مجموعةً من البيانات ليس بها مشاكل في الجودة من أي نوعٍ، ربما إلى حد أنك إذا قابلتَ مجموعة من مثل هذه البيانات «المثالية» فلا بد أن تشك فيها. ربما يجب عليك وقتها أن تسأل عن عمليات الإعداد التي خضعت لها مجموعة البيانات، والتي تجعلها تبدو مثالية. وسوف نعود إلى مسألة الإعداد لاحقًا.

تميل التوصيفات القياسية للأفكار والأساليب الإحصائية الموجودة في الكتب إلى افتراض أن البيانات ليس بها مشاكل (وهنا يصف خبراء الإحصاء البيانات بأنها «نظيفة»، في مقابل البيانات «الملوثة» أو «الفوضوية»). وهذا أمر مفهوم؛ لأن الهدف من هذه الكتب هو وصف الطرق، وينتقص من وضوح الوصف قول ما يجب القيام به إذا كانت البيانات ليست كما ينبغي أن تكون. ومع ذلك، فإن هذا الكتاب مختلف إلى حدٍّ ما؛ فالهدف هنا ليس تعليم آليات الأساليب الإحصائية، وإنما تقديم ونقْل نكهة المجال الحقيقي. ومجال الإحصاء الحقيقي ينبغي أن يتعامل مع البيانات الملوثة.

من أجل توسيع مناقشتنا، نحتاج إلى فهمِ ما يمكن أن تَعنِيه «البيانات الفاسدة»، وكيفية التعرف عليها، وماذا نفعل حيالها. لسوء الحظ، البيانات مثل الناس؛ فيمكن أن «تفسد» بعدد غير محدود من الطرق المختلفة. ومع ذلك، يمكن تصنيف العديد من هذه الطرق على أنها «ناقصة» أو «غير صحيحة».

(١) البيانات الناقصة

تُعَدُّ مجموعة البيانات غيرَ مكتملة إذا كانت بعض الملاحظات غير موجودة، وقد تكون البيانات مفقودة على نحو عشوائي لأسباب لا علاقة لها تمامًا بالدراسة؛ على سبيل المثال، ربما أوقع كيميائي أنبوب اختبار، أو غاب مريض في التجارب السريرية لكريم البشرة عن موعد المتابعة بسبب تأخر الطائرة، أو انتقل شخص من منزله ومِن ثَمَّ لم يمكن الاتصال به من أجل استكمال استبيان المتابعة. ولكن حقيقة أن عنصر بيانات مفقود يمكن أيضًا أن تقدم معلومات في حد ذاتها؛ فعلى سبيل المثال، ربما يرغب الشخص الذي يستكمل استمارة الطلب أو الاستبيان في إخفاء شيءٍ ما، وبدلًا من الكذب الصريح، ربما ببساطة لا يُجِيب عن هذا السؤال. أو ربما أن الأشخاص المعتنقين لوجهة نظر معينة هم فحسب مَن يُجيبون على الاستبيان؛ على سبيل المثال، إذا طُلب من العملاء ملء استمارات تقييم للخدمة التي يتلقَّوْنها، فإن الأشخاص الذين يريدون مناقشة أشياء بخصوص الخدمة ربما يكونون أكثر ميلًا لملء الاستبيان. وإذا لم يُدرَك ذلك في التحليل، فسوف تَنتج صورة مشوهة عن آراء العملاء. واستطلاعات الإنترنت معرَّضة خصوصًا لهذا النوع من العيوب؛ حيث يُكتفى غالبًا بدعوة الناس للإجابة على الاستبيان؛ فلا توجد سيطرة على مدى تمثيل المستجيبين للمجموعة الخاضعة للدراسة بأكملها، أو حتى على احتمالية أن يجيب الأشخاص أنفسهم عدة مرات.

توجد أمثلة أخرى كثيرة لهذا النوع من «التحيز في الاختيار»، ويمكن أن تكون خفية إلى حدٍّ ما؛ على سبيل المثال، من المألوف للمرضى الانسحاب من التجارب السريرية للأدوية. لنفترض أن المرضى الذين شُفُوا أثناء استخدام الدواء لم يعودوا للمقابلة التالية لأنهم شعروا أنها غير ضرورية (بما أنهم قد تعافَوْا). حينها يمكن المسارعة بالاستنتاج بأن الدواء لم ينجح، لأن المرضى الحاضرين هم فقط أولئك الذين لا يزالون مصابين بالمرض.

ظهرت حالة كلاسيكية لهذا النوع من التحيز عندما تنبَّأت جريدة «ليتراري دايجست» على نحو غير صحيح أن لاندون سيَهزِم روزفلت في الانتخابات الرئاسية في عام ١٩٣٦ في الولايات المتحدة بأغلبية ساحقة. لسوء الحظ، كانت الاستبيانات قد أُرسلَت فقط للأشخاص الذين لديهم هاتف وسيارة، وفي عام ١٩٣٦ كان هؤلاء الأشخاص أكثر ثراء في المتوسط من إجمالي المجموعة الخاضعة للدراسة. فكان الأشخاص الذين أُرسلت إليهم الاستبيانات لا يمثلون على نحو صحيح كل المجموعة المطلوبة. وكما اتضح، الجزء الأكبر من غيرهم أيَّدوا روزفلت.

ثمة نوع آخر مختلف من حالة الاستنتاجات غير الصحيحة الناشئة عن عدم مراعاة البيانات المفقودة، والذي أصبح حالة إحصائية كلاسيكية ثانوية. هذه الحالة هي حالة مكوك الفضاء «تشالنجر»، الذي انفجر عند إطلاقه في عام ١٩٨٦؛ مما أسفر عن مقتل جميع مَن كانوا على متْنه. في الليلة التي سبقت الإطلاق، عُقد اجتماع لمناقشةِ ما إذا كان ينبغي المضي قدمًا في الإطلاق أم لا؛ حيث إن توقعات درجة الحرارة في موعد الإطلاق أشارتْ إلى أنها منخفضة على نحو كبير. أُنتجت بيانات تبيِّن أنه على ما يبدو لا توجد علاقة بين درجة حرارة الهواء والأضرار التي لحقت ببعض أربطة الصواريخ المساعدة. ومع ذلك، كانت البيانات غير مكتملة، ولم تشمل جميع عمليات الإطلاق التي لم تقع بها «أي» أضرار. كان هذا غير ملائم لأن عمليات الإطلاق التي لم تَقَع فيها أي أضرار أُجريت في الغالب في درجات حرارة أعلى. كان الجدول المحتوي على البيانات «كافة» سيُظهِر علاقة واضحة؛ زيادة احتمالية وقوع الضرر في درجات الحرارة الأقل.

وكمثال أخير، الأشخاص الذين يتقدمون بطلبات للحصول على قروض مصرفية وبطاقات الائتمان، وما شابَهَ ذلك، يجري حساب «مجموع النقاط الائتمانية» لهم؛ وهي تلعب دورًا أساسيًّا في تقدير احتمالية عجْزِهم عن السداد. وتُستمد هذه التقديرات من النماذج الإحصائية المبنية (كما هو موضح في الفصل السادس) باستخدام بيانات من العملاء السابقين الذين سددوا ديونهم بالفعل أو عجزوا عن السداد. ولكن توجد مشكلة؛ فالعملاء السابقون ليسوا ممثلين لجميع الأشخاص الذين تقدموا بطلبات للحصول على قرض. فرغم كل شيء، اختير العملاء السابقون لأنه كان يُعتقد أنهم مخاطرة مأمونة. فلو كان هؤلاء المتقدمون عُدُّوا مخاطرة غير مأمونة في حد ذاتهم وكان من المرجح أن يعجزوا عن السداد، ما كانوا ليُقبَلوا في المقام الأول؛ ومن ثَمَّ لم يكونوا ليدخلوا في البيانات. إن أي نموذج إحصائي لا يأخذ بعين الاعتبار هذا التشويه في مجموعة البيانات من المرجَّح أن يؤدِّي إلى استنتاجات خاطئة. وفي هذه الحالة، يمكن أن يعني هذا انهيار البنك.

إذا كانتْ بعض القِيَم فحسب ناقصة لكل سجل (على سبيل المثال بعض الإجابات على الاستبيان)، يوجد نهجان أساسيان شائعان للتحليل. يتمثل أحد النهجين ببساطة في نبذ أي سجلات غير مكتملة؛ وهذا يتضمن نقطتَي ضعف محتملتين خطيرتين؛ أولاهما: أنه يمكن أن يؤدي لتشوهات يسببها التحيز في الاختيار من النوع الذي نوقش آنفًا؛ فإذا كانت سجلات من نوع معين أكثر عرضة لأن يكون بعض قِيَمها ناقصة، فإن حذف هذه السجلات سوف يترك مجموعة بيانات مشوهة. ونقطة الضعف الخطيرة الثانية هي أنه يمكن أن يؤدي إلى انخفاض هائل في حجم مجموعة البيانات المتاحة للتحليل؛ على سبيل المثال، لنفترض أن استبيانًا يحتوي على مائة سؤال، من الممكن تمامًا ألَّا يُجِيب أي مشارك في الدراسة على «كل» سؤال؛ ومن ثم فإن «جميع» السجلات ستتضمن شيئًا ناقصًا؛ وهذا يعني أن نبذ الردود غير المكتملة من شأنه أن يؤدي إلى نبذ كافة البيانات.

النهج الشائع الثاني لمعالجة القيم الناقصة هو إدخال قيم بديلة؛ على سبيل المثال، لنفترض أن بند العمر ناقص من بعض السجلات، يمكننا حينها استبدال متوسط الأعمار المسجلة بالقيم المفقودة. وعلى الرغم من أن هذا ينتج مجموعة بيانات كاملة (سواء أكملها المشاركون في الدراسة أو أكملناها نحن)، فإنه له عيوب أيضًا؛ ففي هذه الحالة نكون قد اختلقنا البيانات في الأساس.

إذا كان هناك سبب للشك في أن غياب عدد معين إنما يرتبط بالقيمة التي كان سيمتلكها لو كان حاضرًا (على سبيل المثال، إذا كان كبار السن أقل في احتمالية التعريف بسِنِّهم)، فثمة حاجة إلى وجود أساليب إحصائية أكثر تفصيلًا. نحن بحاجة إلى بناء نموذج إحصائي لاحتمالية نقصان البيانات — ربما من النوع الذي يتناوله الفصل السادس — وكذلك للعلاقات الأخرى الموجودة داخل البيانات.

ومن الجدير بالذكر أنه من الضروري قبول حقيقة أنه ليست كل القيم قد سُجِّلَت. ومن الممارسات الشائعة استخدام رمز خاص للإشارة إلى أن القيمة ناقصة؛ على سبيل المثال، من الشائع استخدام رمز N/A اختصارًا لعبارة Not Available بمعنى «غير مُتَاح»، ولكن في بعض الأحيان يتم استخدام رموز رقمية مثل ٩٩٩٩ بالنسبة للعمر. وفي هذه الحالة، الإخفاق في جعل جهاز الكمبيوتر يدرك أن ٩٩٩٩ يمثل القيم الناقصة يمكن أن يؤدي إلى نتيجة غير دقيقة إلى حدٍّ كبير. تَخيَّلْ ما سيكون عليه متوسط العمر المقدَّر عندما يدخل عدد كبير من القيم ٩٩٩٩ في عملية الحساب.

عمومًا، ولعل هذا ينبغي أن يكون متوقَّعًا، لا يوجد حلٌّ مثالي للبيانات الناقصة؛ فجميع طرق التعامل معها تتطلب إقحام نوع من الافتراضات الإضافية، والحل الأفضل هو تقليل المشكلة أثناء مرحلة جمع البيانات.

(٢) البيانات غير الصحيحة

البيانات غير المكتملة هي نوع واحد من مشكلات البيانات، ولكن ربما تكون البيانات «غير صحيحة» بأي عدد من الطرق ولأي عدد من الأسباب. ويوجد مستويات عالية ومنخفضة لأسباب هذه المشكلات.

أحد الأسباب العالية المستوى يتمثل في صعوبة اتخاذ قرار بشأن التعريفات المناسبة (والمتفق عليها عالميًّا). يُعَدُّ معدَّل الجريمة — المشار إليه في الفصل الأول — مثالًا على ذلك، ويُعَدُّ معدل الانتحار مثالًا آخَر. عادةً ما يكون الانتحار نشاطًا فرديًّا؛ لذلك لا يستطيع أحد آخَر أن يعرف على وجه اليقين أنه كان انتحارًا. في أحيان كثيرة تُترك رسالة انتحار، ولكن ليس في جميع الحالات؛ ومن ثم يجب استخلاص دليل على أن الوفاة كانت في الحقيقة انتحارًا. وهذا ينقلنا إلى نطاق غامض؛ لأنه يُثِير مسألة الأدلة ذات الصلة، وعدد الأدلة المطلوبة. علاوة على ذلك، يعمد العديد من المنتحرين إلى إخفاء حقيقة انتحارهم؛ لكي تستطيع الأسرة الحصول على أموال التأمين على الحياة مثلًا.

في موضع مختلف — أكثر تعقيدًا — تتولَّى الوكالة الوطنية لسلامة المرضى في المملكة المتحدة مسئولية وضْع التقارير حول الحوادث التي تقع في المستشفيات، ثم تحاول الوكالة بعد ذلك تصنيفها لتحديد القواسم المشتركة، لكي يمكن اتخاذ الخطوات اللازمة لمَنْع وقوع الحوادث في المستقبَل. وتكمن الصعوبة في أن الحوادث تُوصَف عن طريق عدة آلاف من الأشخاص المختلفين، وتوصف بطرق مختلفة. وحتى الحادث نفسه يمكن وصفه بأكثر من نحو مختلف جدًّا.

على مستوًى أدنى، غالبًا ما تقع أخطاء في قراءة المقاييس أو تسجيل القيم؛ على سبيل المثال، يوجد اتجاه شائع في قراءة المقاييس وهو التقريب بلا وعي إلى أقرب عدد صحيح؛ فتوزيعات قياسات ضغط الدم المسجَّلة باستخدام مقاييس ضغط الدم القديمة (غير الإلكترونية) تُظهِر اتجاهًا واضحًا لمزيد من القيم المسجَّلة عند ٦٠، ٧٠، ٨٠ ملِّيمترًا من الزئبق من القيم المجاورة، مثل ٦٩ أو ٧٢. وعند أقصى قدْر يمكن أن تصله أخطاء التسجيل، يمكن أن تُعكس الأرقام (٢٨، بدلًا من ٨٢)، أو يمكن الخلط بين الرقم ٧ المكتوب بخط اليد مع الرقم ١ (وهذا أقل احتمالًا في أوروبا؛ حيث إن ٧ يكتب ٧)، أو قد توضع البيانات في العمود الخطأ في النموذج، وبهذا تتضاعف القيم مصادفة بمقدار عشرة أضعاف، أو ربما يحدث خلط بين النمط الأمريكي لكتابة التاريخ (شهر/يوم/سنة) ونمط المملكة المتحدة (يوم/شهر/سنة)، أو العكس، وما شابه ذلك. في عام ١٧٩٦، طَرَدَ الفلكي الملكي نيفيل ماسكيلين مساعده ديفيد كينبروك على أساس أن مشاهدات الأخير للأوقات التي يَعبُر فيها نجم مختار لخط الزوال عن طريق أحد التلسكوبات في جرينتش لم تكن دقيقة جدًّا. كان هذا الأمر مهمًّا لأن دقة الساعة في جرينتش تتوقف على القياسات الدقيقة لأوقات العبور، وتقديرات خطوط الطول لدى سفن الدولة تعتمد على الساعة، والإمبراطورية البريطانية تعتمد على سفنها. ومع ذلك، فسَّر الباحثون بعد ذلك أسباب عدم الدقة هذه في ضوء تأخُّر رد الفعل النفسي وظاهرة التقريب اللاواعي المذكورة أعلاه. وكمثال أخير من بين كثير من الأمثلة التي كان يمكن أن أختارها، أشار تعداد الولايات المتحدة لعام ١٩٧٠ إلى وجود ٢٨٩ فتاة رُمِّلت وطُلِّقت في الوقت نفسه في سن ١٤. ويجب أن نلاحظ أيضًا نقطة عامة، وهي أنه كلما زاد حجم مجموعة البيانات، زاد عدد المشاركين في تجميعها، وكلما زادت المراحل المشارِكة في معالجتها، زاد احتمال احتوائها على أخطاء.

كثيرًا ما تنشأ أمثلة أخرى لأخطاء البيانات من المستوى الأدنى من وحدات القياس، مثل تسجيل الطول بالمتر بدلًا من القَدَم، أو الوزن بالرطل بدلًا من الكيلوجرام. في عام ١٩٩٩، فُقد «مسبار مناخ المريخ» عندما فشل في دخول الغلاف الجوي للمريخ بالزاوية الصحيحة بسبب الخلط بين قياسات الضغط بوحدَتَيِ الرطل والنيوتن. وفي مثال آخَر للخلط بين وحدات القياس — وهذه المرة في سياق طبي — كانت مستويات الكالسيوم في الدم عند سيدة مسِنَّة عادةً مستوياتٍ عاديةً، في نطاق ٨٫٦ حتى ٩٫١، لكن بَدَتْ فجأة أنها انخفضت إلى قيمة أقلَّ من ذلك بكثير تبلغ ٤٫٨. كانت الممرضة المسئولة على وشك أن تبدأ في حقنها بالكالسيوم عندما اكتشف الدكتور سلفاتوري بينفينجا أن الانخفاض الظاهري كان ببساطة بسبب أن المختبر غير وحدات القياس التي كان يستخدمها في تقديم تقارير النتائج (من ملِّيجرام لكل ديسيلتر (عُشْر اللتر) إلى ملِّي مكافئ لكل لتر).

(٣) انتشار الخطأ

بمجرد ارتكاب الأخطاء، فإنها يمكن أن تتفشَّى وتسبِّب عواقب وخيمة؛ على سبيل المثال، نُسِبَ عجز الميزانية وتسريح العمال المحتمل في شمال غرب ولاية إنديانا في عام ٢٠٠٦ إلى تأثير خطأ في رقم واحد فقط شقَّ طريقه عبر النظام؛ فأحد المنازل كانت قيمته ١٢١٩٠٠ دولار لكن تغيرت قيمته عن طريق الخطأ إلى ٤٠٠ مليون دولار. وللأسف، استُخدمت هذه القيمة الخاطئة في حساب المعدلات الضريبية.

وفي حالة أخرى، ذكر عدد صحيفة «تايمز» بتاريخ ٢ ديسمبر ٢٠٠٤ كيف أن ٦٦٥٠٠ شركة من حوالي ١٧٠٠٠٠ شركة أُزيلت عن طريق الخطأ من قائمة مستخدمة لتجميع التقديرات الرسمية لناتج البناء في المملكة المتحدة؛ وأدَّى ذلك إلى انخفاض نمو البناء في الربع الأول بنسبة ٢٫٦٪، بدلًا من القيمة الصحيحة التي تقضي بارتفاعه بنسبة ٠٫٥٪؛ وتَرتَّبَ على ذلك أنه في الربع الثاني وَرَدَ أن نسبة النمو تبلغ ٥٫٣٪ بدلًا من النسبة الفعلية البالغة ٢٫١٪.

(٤) الإعداد

كما يجب أن يكون واضحًا من الأمثلة السابقة، فإن عنصرًا أساسيًّا أوليًّا في أي تحليل إحصائي يتمثل في الفحص الدقيق للبيانات والتحقق من وجود الأخطاء وتصحيحها إنْ أمكن. وفي بعض السياقات، يمكن أن تستغرق هذه المرحلة الأولية وقتًا أطول من مراحل التحليل اللاحقة.

ثمة مفهوم رئيسي في تنظيف البيانات هو «القيمة الشاذة». والقيمة الشاذة هي قيمة تختلف كثيرًا عن القيم الأخرى، أو عما هو متوقع، وتكون خارجة عن ذيل التوزيع. وأحيانًا تحدُث هذه القيم المتطرفة بفعل المصادفة؛ فعلى سبيل المثال، على الرغم من أن معظم حالات الطقس تكون معتدلة إلى حدٍّ ما، فإن العواصف الشديدة تحدث بالفعل في بعض الأحيان. ولكن في حالات أخرى ينشأ الشذوذ بسبب أنواع الأخطاء الموضحة سابقًا، مثل مقياس شدة الريح الذي يشير ظاهريًّا إلى عاصفة ضخمة مفاجئة من الرياح في كل منتصف ليل، تزامنًا مع الوقت نفسه الذي يعيد فيه تلقائيًّا معايرة نفسه؛ لذلك يعد البحث عن القيم الشاذة استراتيجية عامة جيدة للكشف عن الأخطاء في البيانات، والتي يمكن بعد ذلك التحقق منها عن طريق شخصٍ ما. وربما تكون هذه القيم قيمًا شاذة خاصة بمتغيرات مفردة (مثل الرجل البالغ من العمر ٢١٠ سنوات)، أو متغيرات متعددة، ليس أيٌّ منها قيمة شاذة في حد ذاته (مثل الفتاة البالغة من العمر ٥ سنوات ولديها ٣ أطفال).

وبطبيعة الحال، كشْف القيمة الشاذة ليس حلًّا شاملًا للكشف عن الأخطاء في البيانات؛ فرغم كل شيء، يمكن الوقوع في أخطاء تؤدي إلى قيم تظهر طبيعية تمامًا. فربما يُدرَج جنس شخصٍ ما عن طريق الخطأ على أنه أنثى بدلًا من كونه ذكرًا. وأفضل حل هو تبنِّي ممارسات إدخال بيانات تقلل من عدد من الأخطاء. وسنتناول هذا الأمر بالتفصيل في جزء تالٍ.

إذا اكتُشف خطأ واضح، تواجهنا مشكلةُ ما يجب القيام به حياله. يمكن أن نحذف القيمة، معتبرين أنها قيمة ناقصة، ثم نحاول استخدام أحد إجراءات القيم الناقصة المذكورة سابقًا. وأحيانًا يمكننا وضع تخمين ذكي لما كان ينبغي أن تكون عليه هذه القيمة؛ على سبيل المثال، لنفترض أنه خلال تسجيل أعمار مجموعة من الطلاب، حصل الشخص على سلسلة القيم ١٨، ١٩، ١٧، ٢١، ٢٣، ١٩، ٢١٠، ١٨، ١٨، ٢٣. وبدراسة هذه القيم، ربما نعتقد أنه من المرجح أن القيمة ٢١٠ قد دخلت في العمود الخطأ، وأنه ينبغي أن تكون ٢١. وبالمناسبة، لاحظ عبارة «تخمين ذكي» المستخدمة أعلاه. فكما هي الحال مع كل تحليلات البيانات الإحصائية، فإن التفكير المتأني أمر بالغ الأهمية. فليس الأمر مجرد مسألة اختيار طريقة إحصائية معينة وترك الكمبيوتر ليقوم بالعمل؛ فالكمبيوتر لا يقوم إلا بالعمليات الحسابية وحسب.

كان مثال أعمار الطلاب في الفقرة السابقة صغيرًا للغاية؛ إذ كان يحتوي فحسب على عشرة أرقام؛ لذلك كان من السهل النظر فيها وتحديد القيمة الشاذة، ووضع تخمين ذكي حول ما ينبغي أن تكون عليه هذه القيمة. ولكننا نواجه على نحو متزايد مجموعات بيانات أكبر وأكبر. إن مجموعات البيانات المكونة من عدة مليارات من القيم شائعة في الوقت الحاضر في التطبيقات العلمية (مثل تجارب الجسيمات)، والتطبيقات التجارية (مثل الاتصالات)، وغيرها من المجالات الأخرى. وغالبًا ما سيكون مستحيلًا تمامًا استكشاف كل القيم يدويًّا، ويكون علينا أن نعتمد على الكمبيوتر. طوَّر الإحصائيون إجراءات آلية للكشف عن القيم الشاذة، ولكنها لا تحل المشكلة تمامًا. ربما تلفت الإجراءات الآلية الانتباه نحو أنواع معينة من القيم الغريبة، ولكنها ستتجاهل سمات الغرابة التي لم تُخبر عنها. ثم هناك مسألةُ ما يجب القيام به حيال الشذوذ الظاهري الذي كشفه الكمبيوتر. لا بأس في هذا إذا كان رقمًا واحدًا من هذه المليارِ رقمٍ هو الذي كان موضع شك، ولكن ماذا لو كان مائة ألف رقم في موضع شك؟ مرة أخرى، الفحص والتصحيح عن طريق الأشخاص غير عملي. وللتعامل مع مثل هذه الحالات، طوَّر الإحصائيون مرة أخرى إجراءات آلية، وطورت بعضٌ من أقدم أساليب التحرير والتصحيح الآليةَ تلك في سياق التعدادات والدراسات المسحية الكبيرة، ولكنها دراسات ليست معصومة من الخطأ. خلاصة القول أن الإحصائيين لا يستطيعون — للأسف — صنع المعجزات. إن وجود بيانات رديئة الجودة يجعلنا في خطر الحصول على نتائج رديئة الجودة (بمعنى غير دقيقة وخاطئة وعرضة للخطأ). وأفضل استراتيجية لتجنب ذلك هي الحرص على الحصول على بيانات ذات جودة عالية من البداية.

طورت العديد من الاستراتيجيات لتجنب الأخطاء في البيانات في المقام الأول، وهي تتنوع وفقًا لمجال التطبيق وطريقة جمع البيانات؛ على سبيل المثال، عندما تُنسخ بيانات التجارب السريرية من استمارات سجل الحالة المكتوبة باليد، يوجد احتمال حدوث أخطاء في مرحلة النسخ. وتقلل هذه الأخطاء عن طريق ترتيب تكرار إدخال البيانات مرتين عن طريق شخصين مختلفين يعملان على نحو مستقل، ثم التحقق من وجود أي اختلافات. عند التقدم للحصول على قرض، فإن بيانات الطلب (مثل العمر والدخل والديون الأخرى، وما إلى ذلك) يمكن إدخالها مباشرة إلى جهاز الكمبيوتر، ويمكن لبرامج الكمبيوتر التفاعلية التحقق من الأجوبة بينما يتم إدخالها (على سبيل المثال، إذا كان الشخص مالكًا لمنزل، فهل تشمل ديونه الرهن العقاري؟) وعمومًا، يجب تصميم الاستمارات على نحو يقلل الأخطاء؛ فلا ينبغي أن تكون معقدة على نحو مفرط، ويجب أن تكون جميع الأسئلة واضحة. ومن الواضح أنه من الأفكار الجيدة إجراء دراسة مسحية تجريبية صغيرة للتعرف على أية مشكلات في عملية جمع البيانات قبل الانتقال للتنفيذ الفعلي.

وبالمناسبة، تعد عبارة «خطأ حاسوبي» عبارة مألوفة، ويعد الكمبيوتر كبش فداء شائع عندما تحدث أخطاء في البيانات. ولكن الكمبيوتر يفعل فحسب ما يقال له، مستخدمًا البيانات المُقدَّمَة له. وعندما تحدث الأخطاء، فليس هذا صنيعة يد الكمبيوتر.

(٥) البيانات الرصدية في مقابل البيانات التجريبية

غالبًا ما يكون من المفيد التمييز بين الدراسات «الرصدية» والدراسات «التجريبية»، وبالمثل بين البيانات الرصدية والبيانات التجريبية. تشير الصفة «رصدية» إلى الحالات التي لا يستطيع المرء فيها أن يتدخل في عملية جمع البيانات؛ فعلى سبيل المثال، في استطلاع حول التوجهات الذهنية للأشخاص حيال السياسيين (انظر أدناه)، تُسأل عينة مناسبة من الأشخاص عن شعورهم، أو في دراسة لخصائص المجرات البعيدة، سوف تخضع هذه الخصائص للرصد والتسجيل. في هذين المثالين، اختار الباحثون ببساطةٍ الأشخاصَ أو الأشياءَ التي سيدرسونها ثم سجلوا خصائص هؤلاء الأشخاص أو الأشياء. لا وجود هنا لفكرة القيام بشيءٍ ما للأشخاص أو المجرات قبل قياسها. في المقابل، في الدراسة التجريبية يتلاعب الباحثون فعليًّا بعناصر الدراسة بطريقة ما؛ على سبيل المثال، في تجربة سريرية ربما يعرِّضون المتطوِّعين لدواء معين قبل أخْذ القياسات. وفي تجربة تصنيعية لإيجاد الظروف التي تُسفِر عن أقوى منتج نهائي، سيجرِّبون ظروفًا مختلفة.

يتمثَّل أحد الفروق الجوهرية بين الدراسات الرصدية والتجريبية في أن الدراسات التجريبية أكثر فعالية بكثير في تحديد السبب والمسبب؛ على سبيل المثال، ربما نخمن أن طريقة معينة لتعليم الأطفال القراءة (الطريقة «أ» مثلًا) أكثر فعالية من طريقة أخرى (الطريقة «ب»). وفي دراسة وصفية، سوف ننظر للأطفال الذين خضعوا للتعليم باستخدام إحدى الطريقتين ونقارن قدرتهم على القراءة. لكننا لن نكون قادرين على التدخل في توزيع الأطفال الذين يخضعون للطريقة «أ» والذين يخضعون للطريقة «ب»؛ فهذا يتحدد من قِبَل شخص آخَر. يسبب ذلك مشكلة محتملة؛ إذ يعني أنه من الممكن أن توجد اختلافات أخرى بين مجموعتَي تعلُّم القراءة، فضلًا عن طريقة التدريس؛ على سبيل المثال، ولتقديم توضيح صارخ، ربما يُلحِق المدرِّس جميع الأطفال الذين يتعلَّمون على نحو أسرع بالطريقة «أ»؛ أو ربما كان الأطفال أنفسهم مسموحًا لهم بالاختيار، ومال أولئك الأكثر تقدمًا بالفعل في القراءة إلى اختيار الطريقة «أ». إذا كنَّا أكثر تمرسًا في مجال الإحصاء، فربما نستخدم أساليب إحصائية في محاولة للسيطرة على أي اختلافات موجودة مسبقًا بين الأطفال، وكذلك العوامل الأخرى التي نعتقد أنها من المرجَّح أن تؤثِّر على مدى سرعة تعلمهم القراءة. ولكن تظل هناك دائمًا احتمالية وجود تأثيرات أخرى لم نفكِّر فيها، والتي تسبب الفرق.

تتغلب الدراسات التجريبية على هذا الاحتمال عن طريق الاختيار المتعمَّد لكل طفل وللطريقة التي يدرس بها؛ فإذا كنَّا نعرِف بالفعل كل العوامل المُمكِنة، بالإضافة إلى طريقة التدريس — التي يمكن أن تؤثِّر على القدرة على القراءة — يمكننا التأكد من أن التوزيع على طريقتَي التدريس كان «متوازنًا»؛ على سبيل المثال، إذا كنَّا نظنُّ أن القدرة على القراءة تتأثر بالعمر، يمكننا توزيع العدد نفسه من الأطفال الصغار على كل طريقة. وهكذا، فإن أي اختلافات في القدرة على القراءة ناشئة عن العمر لن يكون لها أي تأثير على الفرق بين مجموعتَينا؛ أي إنه إذا كان للعمر تأثير على القدرة على القراءة، فإن التأثير سيكون نفسه في كلتا المجموعتَين. ومع ذلك، تمتلك الدراسات التجريبية وسيلة أكثر قوة في اختيار أي طفل يخضع لأي طريقة، والتي يُطلَق عليها اسم «التوزيع العشوائي»، وسوف أتناول ذلك فيما يلي:

نتيجة هذا أنه في الدراسة التجريبية يمكن أن نكون أكثر ثقة حيال سبب أي تأثير مرصود. وفي تجربة مقارنة تعليم القراءة، يمكننا أن نكون أكثر ثقة أن أي فرْق في القدرة على القراءة بين المجموعتَين هو نتيجة لطريقة التعليم، وليس نتيجة عامل آخَر.

للأسف، ليس من الممكن دائمًا إجراء التجارب بدلًا من الدراسات الرصدية. فلا يمكننا مثلًا تعريض المجرات المختلفة لظروف مختلفة! وعلى أي حال، ربما يكون من المضلِّل في بعض الأوقات استخدام المنهج التجريبي؛ ففي كثير من الدراسات المسحية الاجتماعية، يتمثل الهدف في معرفة حال السكان الحقيقي، لا في «ماذا سيكون التأثير الناتج إذا فعلنا كذا وكذا؟» ومع ذلك، إذا كنَّا نريد بالفعل أن نعرف ماذا سيكون تأثير أي تدخُّل محتمل، فإن الدراسات التجريبية تُعَدُّ استراتيجية أفضل. هذا النوع من الدراسات واسع الانتشار في قطاع الصناعات الدوائية والطب وعلم النفس، ومجال التصنيع والصناعات التحويلية، كما يُستخدم على نحو متزايد في تقييم السياسة الاجتماعية وفي مجالات مثل إدارة قيمة العملاء.

وعمومًا، عند جمع البيانات بهدف إجابة أو استكشاف بعض الأسئلة، كلما زادت البيانات التي تُجمَع، زادت دقة الإجابة التي يمكن الحصول عليها؛ وهذا نتيجة ﻟ «قانون الأعداد الكبيرة»، الذي سيناقَش في الفصل الرابع. ولكن جمع المزيد من البيانات يفرض تكلفة أكبر. ولذلك فمن الضروري التوصل إلى حلٍّ وسط مناسب بين كمية البيانات التي تُجمَع وتكلفة جمعها. تقبع تخصصات فرعية متعددة من الإحصاء في قلب هذه العملية، وعلى وجه الخصوص، يُعَدُّ «التصميم التجريبي» و«مسح العينات» نوعين من التخصصات الرئيسية.

(٦) التصميم التجريبي

رأينا بالفعل أمثلة لتجارب بسيطة جدًّا. وتتمثل إحدى أبسط التجارب في تجربةٍ سريريةٍ ثنائيةِ المجموعةِ تَستخدم عينات عشوائية. والهدف هنا هو المقارنة بين علاجين من العلاجات البديلة («أ» و«ب»، مثلًا) لكي نستطيع معرفة أيهما ينبغي إعطاؤه لمريض جديد. ولاكتشاف ذلك، نقدم العلاج «أ» إلى إحدى عينتَيِ المرضَى، والعلاج «ب» إلى العينة الأخرى من المرضى، ونُقَيِّم فعالية العلاج. وإذا تفوَّق «أ» على «ب» في المتوسط، فإننا سنوصي أن يتلقَّى المريض الجديد العلاج «أ». سيعتمد معنى كلمة «تفوق» في الجملة السابقة على الدراسة نفسها؛ إذ يمكن أن تعني «يشفي المزيد من المرضى»، أو «يطيل متوسط العمر»، أو «يسبب متوسط انخفاض أكبر في الألم»، أو ما إلى ذلك.

كما لاحظنا بالفعل سابقًا، إذا كانت مجموعتا المرضى تختلفان على نحوٍ ما، فإن الاستنتاجات التي يمكن أن نستخلصها محدودة. فإذا كان المرضى الذين تلقَّوا العلاج «أ» جميعًا من الذكور، والذين تلقَّوا العلاج «ب» كلهم من الإناث، فإننا لن نعرف ما إذا كان أي فرق بين المجموعتَين لاحظناه يرجع إلى العلاج أم إلى اختلاف الجنس؛ إذ ربما تتحسن صحة الإناث أسرع بغضِّ النظر عن العلاج. وتنطبق النقطة نفسها على أي عامل آخَر؛ العمر أو الطول أو الوزن أو مدة المرض أو تاريخ العلاجات السابقة، أو ما إلى ذلك.

إحدى استراتيجيات تقليل هذه الصعوبة تكمن في توزيع المرضى عشوائيًّا على مجموعتَي العلاج. تكمن قوة هذا النهج في أنه على الرغم من عدم ضمانه لوجود توازن (على سبيل المثال، من الممكن أن تؤدي عملية التوزيع العشوائي إلى وجود نسبة أعلى بكثير من الذكور في مجموعة واحدة عن الأخرى)، فإن القواعد الأساسية للاحتمال (التي نناقشها في الفصل الرابع) تخبرنا أن اختلالات التوازن الكبيرة غير مرجحة الحدوث على نحو كبير. في الواقع، من الممكن التعمق أكثر من هذا بحساب احتمالية حدوث درجات عدم التوازن المختلفة. وهذا بدوره يُتيح لنا حساب مدى الثقة التي يجب أن نمتلكها حيال استنتاجاتنا.

وعلاوة على ذلك، إذا كان التوزيع العشوائي «مزدوجَ التعمية»، فلا يوجد خطر التحيز اللاواعي الذي يتدخل في عملية التوزيع أو قياس المرضى. وتكون الدراسة مزدوجةَ التعمية إذا لم يكن المريض ولا الطبيب الذي يُجرِي التجربة يعرف أي علاج يتلقَّاه المريض. ويمكن تحقيق ذلك عن طريق جعل الأقراص أو الأدوية تبدو متطابقة، وترميزها ببساطة بالحرفين «س» و«ص» دون الإشارة إلى ماهية العلاج. وفي وقت لاحق فحسب — بعد أن يكشف التحليل أن «س» أفضل من «ص» — تُفَك شفرة الترميز، لتوضيح أن «س» هو في حقيقته العلاج «أ» أو «ب».

إن التجربة السريرية الثنائية المجموعة التي تَستخدم عيناتٍ عشوائيةً بسيطةٌ جدًّا، ولها صور موسعة واضحة؛ فعلى سبيل المثال، يمكننا التوسع فيها على الفور إلى أكثر من مجموعتَي علاج. ومع ذلك، من أجل التنويع، سوف أغيِّر الأمثلة. يرغب مُزارع في معرفة أيٍّ من مستويات الماء المنخفضة أو العالية أفضل فيما يخص إنتاج غلة أكبر من المحاصيل. يمكنه إجراء تجربة بسيطة ثنائية المجموعة من النوع المذكور سابقًا لتحديد هذا. وبما أننا نعلم أن النتائج ليست متوقَّعة تمامًا، فسوف يريد تعريض أكثر من صوبة واحدة لمستوى مياهٍ منخفِض، وأكثر من صوبة واحدة لمستوًى عالٍ، ثم يحسب متوسط الغَلَّة في كل مستوًى؛ فعلى سبيل المثال، ربما يقرر استخدام أربع صوبات لكل مستوًى. وهذا هو بالضبط نوع التصميم نفسه كما في دراسة طرق التدريس السابقة.

ولكن لنفترض الآن أن المزارع يريد أيضًا أن يعرف أيٌّ من مستويات الأسمدة المنخفضة والعالية أكثر فعالية. الشيء البديهي القيام به هو إجراء تجربة أخرى ثنائية المجموعة؛ هذه المرة باستخدام أربع صوبات تتلقَّى مستوًى منخفضًا من الأسمدة وأربعة تتلقَّى مستوًى عاليًا. هذا جيد جدًّا، ولكن الإجابة على كلا السؤالين — السؤال عن مستوى الماء والسؤال عن مستوى الأسمدة — تتطلب ما مجموعه ست عشرة صوبة. وإذا كان المزارع مهتمًّا أيضًا بفعالية مستويات الرطوبة المنخفضة والعالية، ودرجة الحرارة، وساعات التعرض لضوء الشمس، وما شابه ذلك؛ فسنرى أنه سيكون بحاجة لعدد كبير للغاية من الصوبات.

توجد طريقة ذكية للغاية للالتفاف حول ذلك؛ وهي باستخدام مفهوم تصميم التجارب «العاملية»؛ فبدلًا من تنفيذ تجربتين منفصلتين، واحدة للمياه وواحدة للأسمدة، يستطيع المزارع معالجة صوبتين باستخدام «أسمدة منخفضة، وماء منخفض»، واثنتين «منخفضة، عالٍ»، واثنتين «عالية ومنخفض»، واثنتين «عالية، عالٍ». هذا يتطلب فقط ثماني صوبات زراعية، ومع ذلك نظل نعالج أربعًا منها بمستوى مياه منخفض وأربعًا بمستوى مياه عالٍ، وكذلك أربع صوبات بمستوى أسمدة منخفض وأربعًا بمستوى أسمدة عالٍ؛ ومن ثم فإن نتائج التحليل سوف تكون دقيقة تمامًا كما لو كنَّا أجرَيْنا تجربتين منفصلتين.

في الواقع، يمتلك هذا التصميم العاملي (المياه والأسمدة كلاهما «عامل») ميزة إضافية جذابة؛ فهو يُتيح لنا معرفةَ ما إذا كان تأثير مستوى السماد مختلفًا عند مستويَيِ المياه؛ فربما يختلف الفرق بين المحصول مع مستويَيِ الأسمدة المنخفِض والعالي في حالة اختلاف مستوى المياه. وهذا يُسمَّى «تأثير التفاعل»، ولا يمكن فحْصُه في نهْج إجراء تجربتين منفصلتين.

جرى التوسع في هذه الفكرة الأساسية بطُرُق عديدة لإنتاج أدوات قوية للغاية للحصول على معلومات دقيقة من أجْل الوصول للحدِّ الأدنى من التكلفة. وعند ضمِّها إلى غيرها من أدوات التصميم التجريبي، مثل التوازن والتوزيع العشوائي والسيطرة على التأثيرات المعروفة، نتجت بعض التصاميم التجريبية المتطورة للغاية.

أحيانًا في التجارب تكون الأمور غير الإحصائية مهمَّة؛ فعلى سبيل المثال، في التجارب السريرية والدراسات الطبية ودراسات السياسة الاجتماعية الأخرى، ربما تكون الأمور الأخلاقية ذات صلة؛ ففي تجربة سريرية تقارِن علاجًا جديدًا مقترَحًا مع علاج وهمي (غير نشِط)، سنكون على معرفة بأنَّ نِصْف المرضى المتطوِّعين سيتلقَّوْن شيئًا ليس له أي تأثير بيولوجي. هل هذا مناسب؟ هل يوجد خطر أن يُعانِي أولئك الذين يتناولون العلاج الجديد المقترح من آثار جانبية؟ مثل هذه الأشياء يجب أن تكون متوازنة مع حقيقة أن أعدادًا لا تُحصَى من المرضى في المستقبَل سوف يستفيدون ممَّا يتم معرفته خلال التجربة.

(٧) مسح العينات

تخيل أنه من أجل إدارة البلاد على نحو فعال، نودُّ أن نعرف متوسط الدخل لمليون شخص عامل من الرجال والنساء في بلدة معينة. ظاهريًّا، يمكننا تحديد هذا عن طريق سؤالِ كلٍّ منهم عن دخله، وحساب متوسط النتائج. أما عمليًّا، فإن هذا سيكون صعبًا للغاية، ويكاد يكون مستحيلًا. وفضلًا عن أي شيء آخر، من المرجَّح أن يتغير الدخل على مدى الوقت الذي سيستغرقه جمع البيانات؛ فربما يترك بعض الناس وظائفهم أو يغيرونها، وربما يتلقَّى البعض الآخر علاوات، وما إلى ذلك. وعلاوة على ذلك، فإن تعقُّب كل شخص سيكون مكلِّفًا للغاية. ربما نحاول خفض التكاليف من خلال الاعتماد على الهاتف، لا المقابلات الشخصية، ولكنْ كما رأَيْنا سابقًا في الحالة المتطرِّفة للانتخابات الرئاسية في الولايات المتحدة لعام ١٩٣٦، يوجد خطر كبير بأننا سوف نَغفل عن شرائح مهمة من السكان.

ما نحتاجه هو طريقةٌ ما لتقليل تكلفة جمع البيانات لكنها في نفس الوقت تجعل العملية أسرع، وتجعلها — إذا أمكن — أكثر دقة أيضًا. بصياغة الأمر بهذه الطريقة، ربما يبدو الأمر كأنه مهمة شاقَّة، ولكن الأفكار والأدوات الإحصائية التي تتمتع بهذه الخصائص موجودة. والفكرة الرئيسية هي فكرة قابلناها عدة مرات من قبلُ؛ وهي فكرة العيِّنة.

لنفترض أنه بدلًا من معرفةِ ما يحصل عليه كل واحد من المليون موظف، سألنا ببساطةٍ ألفَ موظف منهم. لكن علينا بوضوح الآن أن نكون حَذِرين بشأن الألف موظف الذين نسألهم بالضبط. وأسباب ذلك هي في الأساس الأسباب نفسها التي دعتْنا عندما كنَّا نصمِّم التجربة الثنائية المجموعة البسيطة إلى اتخاذ خطوات لضمان أن الفرق الوحيد بين المجموعتَين كان أن واحدة تتلقَّى العلاج «أ» والأخرى تتلقَّى العلاج «ب»؛ لذا علينا الآن أن نتأكد أن الأشخاص الألف المحددين الذين نتواصل معهم يمثلون الموظفين المليون على نحو تام.

ما الذي نعنيه بكلمة «ممثِّل»؟ على نحو مثالي، ينبغي أن تكون عيِّنتنا المكوَّنة من ألف موظف تحتوي على نسبة الرجال نفسها الموجودة في المجموعة الكاملة الخاضعة للدراسة، والنسبة نفسها من الشباب، والنسبة نفسها من العاملين بدوام جزئي، وما إلى ذلك. نستطيع ضمان ذلك إلى حدٍّ ما من خلال اختيار ألف موظف بحيث تكون نسبة الرجال — على سبيل المثال — صحيحة. ولكن من الواضح أنه يوجد قيد عملي لما يمكننا موازنته عمدًا بهذه الطريقة.

شاهدنا كيفية التعامل مع هذه الصعوبة عندما تناولنا التصميم التجريبي؛ وذلك من خلال «التوزيع العشوائي» للمرضى على كل مجموعة من المجموعتَين. في حالتنا هذه سنتعامل معها عن طريق «أخذ عينة عشوائية» من ألف شخص من مجموعة الموظفين الكلية الخاضعة للدراسة. ومرة أخرى، رغم أن هذا لا يضمن أن العينة ستكون مشابِهة في تكوينها للمجموعة الخاضعة للدراسة، فإن الاحتمالية الأساسية تُخبِرنا أن فرصة الحصول على عيِّنة مختلِفة كثيرًا ضئيلة جدًّا. وتحديدًا، يترتب على ذلك أن احتمالية أن تكون تقديراتنا لمتوسط الدخل، والمستمَدَّة من العينة، مختلفةً كثيرًا عن متوسط الدخل في المجموعة الخاضعة للدراسة بأكملها؛ ضعيفةٌ للغاية. وفي الواقع، ثمة خاصيتان للاحتمالات — سوف نتناولهما في وقت لاحق؛ هما «قانون الأعداد الكبيرة» و«مبرهنة النهاية المركزية» — تُخبِرانِنَا أيضًا أننا يمكننا جعل هذه الاحتمالية ضئيلة كما نشاء من خلال زيادة حجم العينة. ويتضح لنا أن ما يهم حقًّا ليس مدى كِبَر نسبة العينة إلى المجموعة الكلية، وإنما ببساطة مدى كبر حجم العينة. فسيكون تقديرنا — المستنِد إلى حجم عينة مكونة من ألف شخص — بالدقة نفسها إذا كانت المجموعة الكلية الخاضعة للدراسة تتألف من عشرة ملايين أو عشرة مليارات شخص. وبما أن حجم العينة يرتبط ارتباطًا مباشرًا بتكلفة جمع البيانات، فإن لدينا الآن علاقة مباشرة بين الدقة والتكلفة؛ فكلما كان حجم العينة أكبر، زادت التكلفة، ولكن قلَّ احتمال الانحراف الكبير بين تقدير العينة ومتوسط المجموعة الكلية الخاضعة للدراسة.

في حين أن «أخذ عينة عشوائية مكونة من ألف شخص من المجموعة الكلية» للعاملين في المدينة قد يبدو كأنه عملية بسيطة، فإنها في واقع الأمر عملية تتطلب عناية شديدة؛ فعلى سبيل المثال، لا يمكننا ببساطةٍ اختيارُ ألف شخص من أكبر شركة في المدينة؛ لأن هذه العينة قد لا تكون ممثلة للعاملين المليون جميعهم. وبالمثل، لا يمكننا الاتصال بعينة عشوائية من بيوت الأشخاص في الساعة الثامنة مساءً؛ لأننا سنغفل عن أولئك الذين يعملون في وقت متأخر، وربما يختلف هؤلاء العمال في متوسط الدخل عن الآخرين. وعمومًا، للتأكد من أن العينة المكونة من ألف شخص مُمثِّلة على نحو مناسب للمجموعة الكلية، فإننا بحاجة إلى «إطار المعاينة»؛ وهو قائمة تضم المليون العاملين جميعهم في المجموعة الخاضعة للدراسة، والتي يمكن أن نختار منها ألف شخص عشوائيًّا. إن وجود مثل هذه القائمة يضمن أن احتمالية تضمين كل الأشخاص في العينة متساوية.

تُعَدُّ فكرة «أخذ العينات العشوائية البسيطة» هذه أساسًا لعملية مسح العينات؛ فقد شكَّلْنا إطار معاينة، ومنه نختار عشوائيًّا الأشخاص الذين سنُضمِّنهم في عيِّنتنا، ثم نتعقَّبهم (من خلال مقابلة شخصية أو اتصال هاتفي أو رسالة أو بريد إلكتروني، أو بأي طريقة) ونسجل البيانات التي نريدها. وقد طُورت هذه الفكرة الأساسية بالعديد من الطرق الدقيقة والمتطورة جدًّا؛ مما أسفر عن نهج أكثر دقة وأقل تكلفة؛ على سبيل المثال، إذا كنَّا ننوي مقابلة كل شخص من الألف المشاركين في الدراسة، فإن ذلك يمكن أن يكون مكلِّفًا جدًّا من حيث الوقت ونفقات التنقل. سيكون من الأفضل — من هذا المنظور — اختيار المشاركين في الدراسة من عناقيد جغرافية محلية صغيرة. ويوسع «أخذ العينات العنقودية» عملية أخذ العينات العشوائية البسيطة من خلال السماح بذلك؛ فبدلًا من اختيار ألف شخص من المجموعة الخاضعة للدراسة عشوائيًّا، فإن هذا النهج يختار (مثلًا) عشر مجموعات تتكون كلٌّ منها من مائة شخص، بحيث يعيش كل الأشخاص في كل مجموعة بعضهم بالقرب من بعض. وبالمثل، يمكننا التأكد من تحقيق التوازن في بعض العوامل، بدلًا من مجرد الاعتماد على إجراء أخذ العينات العشوائية، إذا فرضنا التوازن على طريقة اختيار العينة؛ على سبيل المثال، يمكننا أن نختار عشوائيًّا عددًا من النساء من المجموعة الخاضعة للدراسة، ونختار عشوائيًّا على نحو منفصل عددًا من الرجال من المجموعة الخاضعة للدراسة؛ حيث يتم اختيار الأعداد بحيث تكون نسب الذكور والإناث هي نفسها كما هي الحال في المجموعة الإجمالية الخاضعة للدراسة. يُعرف هذا الإجراء بأنه «الطريقة الشرائحية لأخذ العينات»؛ لأنه يقسِّم المجموعة الكلية الخاضعة للدراسة المدرجة في إطار العينة إلى شرائح (الرجال والنساء في هذه الحالة). وإذا كان المتغير المستخدم في الشرائح (الجنس في هذا المثال) يرتبط ارتباطًا قويًّا بالمتغير الذي نهتم به (الدخل هنا)، يمكن أن يسفر هذا عن تحسن في الدقة لحجم العينة نفسه.

وعمومًا، في عملية المعاينة، نكون محظوظين للغاية إذا حصلنا على ردود من جميع الأشخاص الذين نتواصل معهم. يوجد دائمًا مقدار من عدم الاستجابة، وهذا يعود بنا إلى مشكلة البيانات الناقصة التي ناقشناها سابقًا، وكما رأينا، يمكن للبيانات الناقصة أن تؤدي إلى عينة متحيزة واستنتاجات غير صحيحة. فإذا رفض الذين يحصلون على رواتب كبيرة المشاركة في الدراسة، فسوف نبخس تقدير متوسط الدخل في المجموعة الخاضعة للدراسة. وبسبب هذا، طور خبراء الدراسات المسحية مجموعة متنوعة من وسائل تقليل وضبط عدم الاستجابة، بما في ذلك تكرار التواصل مع غير المستجيبين وإجراءات إعادة التقييم الإحصائي.

خاتمة

تناول هذا الفصل المواد الخام للإحصائيات؛ وهي البيانات. وقد صيغت تقنيات جمع بيانات متطورة على يد الإحصائيين للحصول على أقصى قدر من المعلومات بالحد الأدنى من التكلفة، ولكن سيكون من السذاجة الاعتقاد بأنه يمكن عادة الحصول على بيانات مثالية. إن البيانات انعكاس للعالَم الحقيقي، والعالَم الحقيقي معقَّد. وإدراكًا لهذا، طور الإحصائيون أيضًا أدوات للتعامل مع البيانات ذات الجودة الرديئة. ولكنْ من المهم أن نُدرِك أن الإحصائيين ليسوا سَحَرة. وينطبق القول المأثور القديم: «مُدخَلات عديمة النفع تساوي نتائج عديمة النفع» تمامًا على الإحصائيات كما ينطبق على كل شيء آخر.

جميع الحقوق محفوظة لمؤسسة هنداوي © ٢٠٢١