انفجار البيانات | البيانات الضخمة: مقدمة قصيرة جدًّا

ما البيانات؟

في عام ٤٣١ قبل الميلاد، أعلنت أسبرطة الحرب على أثينا. يصف ثيوسيديدز، في روايته عن الحرب، كيف خطَّطت القوات البلاتية المُحاصَرة الموالية لأثينا للهرب عن طريق تسلُّق الجدار المحيط ببلاتايا الذي بنته القوات البيلوبونيسية تحت القيادة الأسبرطية. ولكي يتمكَّنوا من ذلك، كانوا يحتاجون إلى معرفة ارتفاع الجدار حتى يصنعوا سلالم ذات طول مناسب. كانت أجزاء كثيرة من الجدار البيلوبونيسي مغطاةً بالجص الخشن، إلا أنهم عثروا على جزء منه حيث كان الطوب لا يزال ظاهرًا بوضوح، وكُلِّف عدد كبير من الجنود بمهمة عدِّ طبقات هذا الطوب المكشوف. كان العمل بمنأًى آمن عن هجمات العدو، يقتضي حتمًا وجود أخطاء، ولكن، كما يُوضِّح ثيوسيديدز، مع التسليم بإجراء العد مراتٍ عديدة، فإن النتيجة الأكثر تكرارًا ستكون هي الصحيحة. هذا العدد الأكثر تكرارًا، والذي سنطلق عليه الآن «المنوال»، استُخدِم بعد ذلك لحساب ارتفاع الجدار؛ فقد كان البيلوبونيسيون يعرفون حجم الطوب المحلي المُستخدم، وصُنعت السلالم ذات الارتفاع المطلوب لتسلُّق الجدار. ومكَّن هذا قوةً مؤلَّفة من عدة مئات من الرجال من الهرب، ويمكن اعتبار هذه الحادثة أكثر مثال لافت للنظر في تاريخ جمع البيانات وتحليلها. ولكن، يرجع جمع البيانات، وتخزينها، وتحليلها إلى ما قبل عصر ثيوسيديدز بقرون، كما سنرى لاحقًا.

وُجدت علامات محفورة على عصي، وأحجار، وعظام، تعود إلى العصر الحجري القديم الأعلى. ويُعتقد أن هذه الحزوز كانت بغرض تمثيل البيانات المُخزَّنة كعلامات إحصاء، ولكن، لا يزال هذا الاعتقاد مفتوحًا للنقاش الأكاديمي. ولعل أشهر مثال على ذلك هو عَظْمة إشانجو، التي عُثر عليها في جمهورية الكونغو الديمقراطية عام ١٩٥٠، ويُقدَّر عمرها بحوالي ٢٠ ألف سنة. تعدَّدت التفسيرات لهذه العظمة المحزَّزة ما بين كونها آلةً حاسبة أو رزنامة، في حين فضَّل آخرون تفسير وجود العلامات عليها بأنها بغرض إحكام مسكها. عظمة ليبومبو، المُكتشفة في سبعينيات القرن العشرين في سوازيلاند، أقدم من سابقتها؛ حيث يرجع تاريخها إلى حوالي ٣٥ ألف سنة قبل الميلاد. تحتوي هذه الشظية من عظمة قرد البابون، على تسعة وعشرين خطًّا عرضيًّا تشبه كثيرًا عصي التقويم التي لا يزال شعب البوشمن يستخدمونها في أقاصي ناميبيا، ما يدل على أنها ربما كانت حقًّا طريقةً مُستخدمة لمتابعة البيانات التي تهم حضارتهم.

على الرغم من أن تفسير هذه العظام المحزَّزة لا يزال مفتوحًا للتخمين، فإننا نعلم أن أحد أول استخدامات البيانات الجيدة التوثيق كان الإحصاء السكاني الذي أجراه البابليون عام ٣٨٠٠ قبل الميلاد. وثَّق هذا الإحصاء السكاني بطريقة منهجية عددَ السكان والسلع، مثل الحليب والعسل؛ من أجل توفير المعلومات اللازمة لحساب الضرائب. استخدم المصريون القدماء أيضًا البيانات، في صورة كتابات هيروغليفية على الخشب أو ورق البردي؛ من أجل تسجيل تسليم البضائع ومتابعة الضرائب. ولكن، الأمثلة الأولى على استخدام البيانات ليست قاصرة، بأي حال من الأحوال، على أوروبا وأفريقيا. كان شعب الإنكا، ومَن سبقهم من شعوب أمريكا الجنوبية، حريصين على تسجيل الإحصاءات لأغراض ضريبية وتجارية، واستخدموا نظامًا دقيقًا ومعقدًا من الخيوط المعقودة الملوَّنة، كانت تُسمى «كيبو»؛ ليكون بمثابة نظام محاسبة عشري. ترجع هذه الخيوط المعقودة، المنسوجة من وبر الإبل أو القطن المصبوغ بألوان فاتحة، إلى الألفية الثالثة قبل الميلاد، ومع أنه من المعروف أن إجمالي ما نجا من الغزو الإسباني وما تلاه من محاولات لطمس هذه الخيوط يقل عن ألف خيط، فإنها تُعد من أوائل الأمثلة المعروفة على أنظمة تخزين البيانات العملاقة. يجري حاليًّا تطوير خوارزميات الكمبيوتر في محاولة لتفسير المعنى الكامل لخيوط «الكيبو»، وتعزيز فهمنا لكيفية استخدامها قديمًا.

على الرغم من إمكانية التفكير في هذه الأنظمة المبكرة ووصفها بأنها تستخدم البيانات، فإن كلمة Data (أي بيانات) هي في الحقيقة صيغة جمع ذات أصل لاتيني، ومفردها Datum. ونادرًا ما تُستخدم كلمة Datum في العصر الحالي؛ ومن ثمَّ تُستخدم كلمة Data تعبيرًا عن صيغتَي المفرد والجمع. ينسب «قاموس أكسفورد الإنجليزي» أول استخدام معروف للكلمة إلى الكاهن الإنجليزي هنري هاموند خلال القرن السابع عشر، وكان ذلك في منشورٍ ديني مثير للجدل نُشر عام ١٦٤٨. استخدم هاموند في هذا المنشور عبارة «كومة من البيانات»، بمفهوم لاهوتي، في إشارة إلى الحقائق الدينية التي لا تقبل الجدل. ولكن، على الرغم من أن هذا المنشور يبرز بوصفه أنه يمثل أول استخدام لكلمة «بيانات» في اللغة الإنجليزية، فإنه لا يتضمَّن استخدامها بالمفهوم العصري الذي يعني الحقائق والأرقام المتعلِّقة بمجموعة معينة هي موضع اهتمام. تعود نشأة مصطلح «البيانات»، بمفهومه الحالي، إلى الثورة العلمية في القرن الثامن عشر بقيادة عمالقة المفكِّرين أمثال بريستلي، ونيوتن، ولافوازييه، وبحلول عام ١٨٠٩، بعد أعمال علماء الرياضيات الأوائل، أرسى كلٌّ من جاوس ولابلاس أُسسًا رياضية للغاية للمنهجية الإحصائية الحديثة.

على مستوًى أكثر عملية، جُمعت كمية هائلة من البيانات خلال تفشي وباء الكوليرا عام ١٨٥٤ في شارع برود بمدينة لندن، ما مكَّن الطبيب جون سنو من إعداد مخطط بياني عن حالة التفشي هذه. وبذلك، تمكَّن من دعم فرضيته أن الماء الملوَّث تسبَّب في انتشار المرض، وإثبات أن المرض لا ينتقل عبر الهواء كما كان يُعتقد سابقًا. بجمع البيانات من السكان المحليين، أثبت أن المصابين بالمرض كانوا يستخدمون جميعهم مضخة المياه العمومية نفسها؛ ومن ثمَّ أقنع المسئولين المحليين عن الأبرشية بإغلاقها، المهمة التي أنجزوها عن طريق إزالة مقبض المضخة. بعد ذلك، وضع سنو خريطة، صارت مشهورةً حاليًّا، تُظهر أن المرض ظهر في مجموعات عنقودية مترابطة تحيط بمضخة برود ستريت. واصلَ سنو العمل في هذا الصدد، حيث راح يجمع البيانات ويحلِّلها، واشتهر بكونه أحد اختصاصيي الأوبئة الرواد.

بعد البحث الذي قدَّمه جون سنو، تزايد استخدام اختصاصيي الأوبئة وعلماء الاجتماع للبيانات الديموجرافية اللازمة للأغراض البحثية، وأثبت الإحصاء السكاني الذي أصبح يُجرى الآن في الكثير من الدول أنه مصدر مفيد لهذه المعلومات. على سبيل المثال، تُجمَع الآن كل البيانات الخاصة بمعدلات المواليد والوَفَيَات، وتكرار الإصابة بمختلِف الأمراض، وإحصاءات الدخل والجريمة، ولم يكن الحال على هذا المنوال قبل القرن التاسع عشر. أصبح الإحصاء السكاني، الذي يُجرى كل عشرة أعوام في أغلب الدول، يجمع كميات متزايدةً من البيانات، وهو ما زاد، في نهاية المطاف، عمَّا يمكن تسجيله باليد أو بأجهزة الإحصاء البسيطة التي كانت مستخدمةً سابقًا. تمَّ التصدي جزئيًّا لتحدي معالجة هذه الكميات المتزايدة من بيانات الإحصاء السكاني من قِبل هيرمان هوليريث أثناء عمله في مكتب تعداد الولايات المتحدة.

بحلول موعد التعداد الأمريكي لعام ١٨٧٠، أصبحت أجهزة إحصاء بسيطة قيد الاستخدام، إلا أن هذا لم يُحقِّق إلا نجاحًا محدودًا في تقليل كم العمل الذي يؤديه مكتب التعداد. ولكن حدثت طفرة جاءت في أوانها قبل تعداد عام ١٨٩٠ عندما استُخدِمَت آلة تبويب البطاقات المُثقَّبة التي اخترعها هيرمان هوليريث لتصنيف البيانات ومعالجتها. كانت معالجة بيانات التعداد الأمريكي تستغرق في المعتاد ثماني سنوات، ولكن، باستخدام هذا الاختراع الجديد تقلَّصت هذه الفترة إلى سنة واحدة. وهكذا، أحدثت آلة هوليريث ثورةً في تحليل بيانات التعداد السكاني في جميع بلدان العالم، بما في ذلك ألمانيا، وروسيا، والنرويج، وكوبا.

بعد ذلك، باع هوليريث آلته إلى الشركة التي تطوَّرت فيما بعدُ لتصبح شركة آي بي إم، والتي طوَّرت فيما بعدُ وأنتجت سلسلةً واسعة الانتشار من آلات البطاقات المثقبة. عام ١٩٦٩، عيَّن المعهد الأمريكي للمعايير الوطنية كود هوليريث للبطاقات المثقبة (أو كود بطاقات هوليريث) بوصفه معيارًا؛ تكريمًا لهوليريث على ابتكاراته السابقة لأوانها في مجال البطاقات المثقبة.

البيانات في العصر الرقمي

قبل استخدام أجهزة الكمبيوتر على نطاق واسع، كانت بيانات التعداد السكاني، أو التجارب العلمية، أو استطلاعات رأي واستبيانات العينات المُصمَّمة بعناية تُسجَّل على الورق، العملية التي كانت تستهلك الكثير من الوقت والمال. لم يكن جمع البيانات يبدأ إلا بعدما يُقرِّر الباحثون الأسئلة التي يريدون أن تجيب عنها تجاربهم أو استطلاعاتهم؛ ومن ثمَّ، يُمكن التعامل بسهولة مع البيانات الناتجة المهيكلة للغاية، المدوَّنة على الورق في صفوف وأعمدة مرتَّبة، باستخدام طُرق التحليل الإحصائي التقليدية. بحلول النصف الأول من القرن العشرين، خُزنت بعض البيانات على أجهزة الكمبيوتر؛ ما ساعد في تخفيف جزء من هذا العمل الذي يتطلَّب الكثير من الأيدي العاملة، ولكن، بإطلاق شبكة الإنترنت العالمية (الويب) عام ١٩٨٩، وتطوُّرها السريع، زادت إمكانية إنتاج، وجمع، وتخزين، وتحليل البيانات إلكترونيًّا. بعد ذلك، ظهرت الحاجة إلى علاج المشكلات الحتمية التي نتجت عن الكم الهائل من البيانات التي أصبح من السهل الوصول إليها بفضل شبكة الويب، وسنتناول أولًا كيفية التمييز بين أنواع البيانات المختلفة.

يمكن تصنيف البيانات التي نستخرجها من شبكة الويب إلى بيانات هيكلية، أو غير هيكلية، أو شبه هيكلية.

أصبحت حاليًّا البيانات الهيكلية، من النوع المكتوب يدويًّا والمحفوظ في دفاتر أو في خزانات الملفات، تُخزَّن إلكترونيًّا في جداول بيانات أو قواعد بيانات، وتتكوَّن من جداول منسقة على هيئة جداول بيانات تتضمَّن صفوفًا وأعمدة، كل صف يمثِّل سِجلًّا، وكل عمود يمثِّل حقلًا محدَّدًا (مثل الاسم، أو العنوان، أو السن). نحن نُسهم في مخازن البيانات الهيكلية هذه عندما نُدخِل، على سبيل المثال، المعلومات الضرورية لطلب سلعة ما عبر الإنترنت. إن البيانات الهيكلية والمجدولة بعناية من السهل نسبيًّا إدارتها، وتكون قابلةً للتحليل الإحصائي؛ ذلك أنه حتى وقت قريب لم يكن من الممكن تطبيق أساليب التحليل الإحصائي إلا على البيانات الهيكلية.

على النقيض من ذلك، البيانات غير الهيكلية ليس من السهل تصنيفها، وتحتوي على صور، ومقاطع فيديو، وتغريدات، ومستندات معالجة نصوص. بمجرد انتشار استخدام شبكة الإنترنت العالمية، تبيَّن أن عددًا كبيرًا من مصادر المعلومات المحتملة ظل الوصول إليها متعذِّرًا؛ لأنها افتقدت الهيكلة المطلوبة لتطبيق أساليب التحليل القائمة. ولكن، من خلال تحديد السمات الرئيسية، يتضح أن البيانات التي تبدو للوهلة الأولى غير هيكلية قد لا تكون من دون هيكلة على الإطلاق. تحتوي رسائل البريد الإلكتروني، على سبيل المثال، على «بيانات تعريف» هيكلية في العنوان الرئيسي، ولكن الرسالة الفعلية غير الهيكلية توجد في نص الرسالة؛ ومن ثمَّ يمكن تصنيفها على أنها بيانات شبه هيكلية. يمكن استخدام علامات بيانات التعريف، وهي في الأساس إشارات وصفية، لإضافة بعض الهيكلة إلى البيانات غير الهيكلية. إن إضافة كلمة وصفية إلى صورة على موقع إلكتروني تجعلها قابلةً للتحديد، وتُسهِّل كثيرًا من البحث عنها. توجد البيانات شبه الهيكلية أيضًا في مواقع شبكات التواصل الاجتماعي التي تستخدم الوسوم حتى يمكن تحديد الرسائل (التي هي بيانات غير هيكلية) عن موضوع مُعيَّن. إن التعامل مع البيانات غير الهيكلية أمر صعب؛ بما أنه لا يمكن تخزينها في قواعد أو جداول البيانات التقليدية، فلا بد من تطوير أدوات خاصة لاستخراج معلومات مفيدة منها. في الفصول الآتية، سنتناول كيفية تخزين البيانات غير الهيكلية.

يشير مصطلح «انفجار البيانات»، عنوان هذا الفصل، إلى الكم الهائل المتزايد من البيانات الهيكلية، وغير الهيكلية، وشبه الهيكلية التي تُنتَج كل دقيقة، وسنتناول لاحقًا بعضًا من المصادر الكثيرة المختلفة التي تُنتِج كل هذه البيانات.

مقدمة إلى البيانات الضخمة

أثناء بحثي عن المادة التي سأستخدمها في هذا الكتاب، غُمرتُ بالكمِّ غير المحدود من البيانات المتوافرة على شبكة الإنترنت — من المواقع الإلكترونية، والمجلات العلمية، والكتب الدراسية الإلكترونية. طبقًا لدراسة عالمية حديثة أجرتها شركة آي بي إم، حوالي ٢٫٥ إكسابايت من البيانات تُنتَج كل يوم. الإكسابايت الواحد يساوي ١٠^١٨ (واحدًا متبوعًا بثمانية عشر صفرًا) بايت (أو مليون تيرابايت؛ انظر جدول الحجم بالبايت في نهاية هذا الكتاب). إذا اشتريتَ كمبيوترًا محمولًا جيدًا في وقت تأليف هذا الكتاب، فإنه سيحتوي عادةً على قرص صلب سعته التخزينية واحد أو اثنان تيرابايت. في البداية، أشار مصطلح «البيانات الضخمة» إلى الكميات الكبيرة للغاية من البيانات التي تُنتَج في العصر الرقمي. وتشمل تلك الكميات الهائلة من البيانات، سواءٌ كانت هيكليةً أو غير هيكلية، جميع بيانات شبكة الإنترنت الناتجة عن رسائل البريد الإلكتروني، والمواقع الإلكترونية، ومواقع شبكات التواصل الاجتماعي.

حوالي ٨٠ بالمائة من بيانات العالم عبارة عن بيانات غير هيكلية في هيئة نصوص وصور؛ ومن ثمَّ، فإنه لا يمكن التعامل معها باستخدام أساليب تحليل البيانات الهيكلية التقليدية عليها. لم يعد مصطلح «البيانات الضخمة» يُستخدم حاليًّا للإشارة إلى إجمالي كمية البيانات الناتجة والمخزَّنة إلكترونيًّا فحسب، بل أصبح يشير أيضًا إلى مجموعات البيانات الكبيرة من حيث الحجم والتعقيد، والتي تتطلَّب أساليب خوارزميةً جديدة لاستخراج معلومات مفيدة منها. تأتي مجموعات البيانات الكبيرة هذه من مصادر مختلفة؛ ولذا دعونا نتناول بعضها بمزيد من التفصيل، وكذلك البيانات التي تُنتجها.

بيانات محرِّكات البحث

عام ٢٠١٥، كان جوجل محرك البحث الأشهر على الإطلاق في جميع أنحاء العالم، وحلَّ محرك بحث بينج التابع لشركة مايكروسوفت ومحرك بحث ياهو سيرش في المركزَين الثاني والثالث، على الترتيب. عام ٢٠١٢، أحدثُ عامٍ كانت فيه البيانات متاحةً للجمهور، بلغ حجم عمليات البحث التي تُجرى على محرك بحث جوجل وحده ما يزيد عن ٣٫٥ مليار عملية بحث يوميًّا.

يترتَّب على إدخال كلمة أساسية ما في محرك البحث عرض قائمة بالمواقع الإلكترونية الأكثر صلة، ولكن، في الوقت نفسه، تُجمَع كمية كبيرة من البيانات. يُنتج التعقب على شبكة الويب بياناتٍ ضخمة. وكتدريب على ذلك، بحثتُ عن «سلالة كلاب بوردر كولي»، ونقرت على الموقع الإلكتروني الأول في نتائج البحث. وباستخدام أحد برامج التعقب البسيطة، وجدتُ أنه جرى إنشاء روابط إلى حوالي ٦٧ موقعًا آخر بمجرد النقر على هذا الموقع الإلكتروني. ومن أجل تعقب اهتمامات الأشخاص الذين تصفَّحوا هذا الموقع، تجري مشاركة المعلومات على هذا النحو بين الشركات التجارية.

كلما استخدمنا أحد محركات البحث، أُنشئت سجلاتٌ مهمتها تسجيل المواقع المُوصَى بها التي زرناها. وتحتوي هذه السجلات على معلومات مفيدة على غرار الكلمة المُستعلَم عنها نفسها، وعنوان آي بي للجهاز المُستخدَم، ووقت إرسال الاستعلام، والمدة التي قضيناها في كل موقع، وترتيب زيارتنا لهذه المواقع — كل ذلك من دون الكشف عن هُوياتنا. علاوةً على ذلك، تُسجِّل «سجلات تدفق النقر» المسارَ الذي سلكناه عند زيارتنا لمختلِف المواقع الإلكترونية، وكذلك تصفُّحنا لكل موقع. عندما نتصفَّح شبكة الويب، تُسجَّل كل نقرة ننقرها في مكان ما لاستخدامها في المستقبل. البرامج المتوافرة للشركات تمكِّنها من جمع بيانات تدفق النقر التي تُنتجها مواقعها الإلكترونية — وتُعد هذه أداة تسويق لا تُقدَّر بثمن. على سبيل المثال، يمكن أن تساعد السجلات — من خلال ما تقدِّمه من بيانات عن النظام — في اكتشاف الأنشطة الضارة مثل سرقة الهُوية. كما يمكن استخدام السجلات في قياس مدى فاعلية الدعاية عبر الإنترنت، وذلك بصفة أساسية عن طريق عدِّ مرات النقر على الإعلانات من قِبل زائري الموقع الإلكتروني.

من خلال تفعيل تحديد هُوية العميل، تُستخدَم ملفات تعريف الارتباط لإضفاء طابع شخصي على تجربة تصفُّحك. عندما تزور للمرة الأولى موقعًا إلكترونيًّا من اختيارك، سيُرسَل «ملف تعريف ارتباط»، وهو عبارة عن ملف نصي صغير يحتوي عادةً على مُعرِّف للموقع الإلكتروني ومُعرِّف للمستخدم، إلى جهاز الكمبيوتر لديك، إلا إذا حظرت استخدام ملفات تعريف الارتباط. وفي كل مرة تزور هذا الموقع الإلكتروني، يُرسِل ملفُّ تعريف الارتباط رسالةً إلى الموقع الإلكتروني، وبهذه الطريقة يظل يتعقَّب زياراتك. وكما سنرى في الفصل السادس، تُستخدَم ملفات تعريف الارتباط في تسجيل بيانات تدفُّق النقر، أو تعقُّب تفضيلاتك، أو إضافة اسمك إلى الإعلانات المستهدفة.

تُنتج مواقع شبكات التواصل الاجتماعي أيضًا كميات كبيرةً من البيانات، وفي هذا الصدد يأتي كلٌّ من فيسبوك وتويتر على رأس القائمة. بحلول منتصف عام ٢٠١٦، بلغ عدد مستخدمي فيسبوك، في المتوسط، ١٫٧١ مليار مستخدم نشط شهريًّا، جميعهم يُنتجون بيانات، ما نتج عنه حوالي ١٫٥بيتابايت (أو ١٠٠٠تيرابايت) من بيانات سجلات الويب يوميًّا. كان لموقع يوتيوب، موقع مشاركة مقاطع الفيديو الشهير، تأثيرٌ كبير منذ إطلاقه عام ٢٠٠٥، ويزعم بيان صحفي حديث عن يوتيوب أن عدد مستخدميه قد تجاوز المليار مستخدم في جميع أنحاء العالم. يمكن استخدام البيانات القيِّمة الناتجة عن محركات البحث ومواقع شبكات التواصل الاجتماعي في مجالاتٍ أخرى كثيرة، على سبيل المثال، عند التعامل مع المشكلات الصحية.

بيانات الرعاية الصحية

إذا تناولنا الرعاية الصحية، فسنجد أننا بصدد مجال يتضمَّن نسبةً كبيرة ومتزايدة من سكان العالم وهو آخذٌ في التحوُّل إلى نظام الحوسبة. تتحوَّل السجلات الصحية الإلكترونية تدريجيًّا لتصبح النظام المعتمد في المستشفيات وعيادات الأطباء، والهدف الأساسي من ذلك هو تسهيل مشاركة بيانات المرضى مع مستشفيات وأطباء آخرين؛ ومن ثمَّ تيسير توفير رعاية صحية أفضل. يتزايد جمع البيانات الشخصية عبر أجهزة الاستشعار القابلة للارتداء أو الزرع، لا سيَّما فيما يتعلق بالمتابعة الصحية، حيث أصبح الكثير منا يستخدمون أجهزةً لمتابعة اللياقة البدنية الشخصية متباينة التعقيد، والتي تُنتج المزيد من فئات البيانات. أصبح من الممكن الآن متابعة صحة المريض عن بُعد، وفي الوقت الحقيقي من خلال جمع البيانات عن ضغط الدم، ومعدل النبض، ودرجة حرارة الجسم، الأمر الذي ربما يقلِّل من تكاليف الرعاية الصحية ويحسِّن من جودة الحياة. تزداد أجهزة المتابعة عن بُعد هذه تطوُّرًا يومًا بعد يوم، وأصبحت الآن تتخطَّى القياسات الأساسية لتشمل متابعة النوم ومُعدَّل تشبُّع الشرايين بالأكسجين.

تُقدِّم بعضُ الشركات عوامل تحفيز لإقناع الموظفين باستخدام أجهزة اللياقة البدنية القابلة للارتداء، وتحقيق أهداف معينة مثل خسارة الوزن أو السير لعدد محدَّد من الخطوات كل يوم. وفي مقابل الحصول على الجهاز، يوافق الموظف على مشاركة البيانات مع صاحب العمل. قد يبدو هذا الأمر منطقيًّا، ولكن ستنشأ حتمًا مشكلاتٌ تتعلَّق بالخصوصية لا بد من وضعها في الاعتبار، بالإضافة إلى الضغط غير المستحب الذي قد يشعر به البعض جراء الاشتراك في هذا النظام.

أصبحنا نرى بصورة متزايدة أشكالًا أخرى من متابعة الموظفين، مثل تتبُّع جميع أنشطة الموظفين على أجهزة الكمبيوتر والهواتف الذكية التي توفِّرها الشركة. وباستخدام برامج مخصَّصة، يمكن أن تشمل هذه المتابعة كلَّ شيء، بدءًا من متابعة المواقع الإلكترونية التي يجري تصفُّحها، ووصولًا إلى تسجيل عدد مرات الضغط على المفاتيح لكل موظف، والتحقق ممَّا إذا كان الحاسوب يُستخدَم لأغراض شخصية مثل تصفُّح مواقع شبكات التواصل الاجتماعي. في عصر التسريبات الهائلة للبيانات، أصبح الأمان هاجسًا متزايد الأهمية، ومن ثمَّ أصبح من الضروري حماية البيانات المؤسسية. وفي النهاية، فإن مراقبة رسائل البريد الإلكتروني وتتبُّع المواقع الإلكترونية التي جرت زيارتها مجرد طريقتَين للحد من سرقة المواد الحساسة.

رأينا بالفعل أنه يمكن استخراج البيانات الصحية الشخصية من أجهزة الاستشعار، مثل أجهزة متابعة اللياقة البدنية أو أجهزة متابعة الحالة الصحية. ولكن، الكثير من البيانات التي تُجمع من أجهزة الاستشعار هذه تُخصَّص لأغراض طبية عالية التخصص. إن بعضًا من أكبر مخازن البيانات الموجودة يجري إنشاؤه بالتزامن مع دراسة الباحثين لجينات العديد من الأنواع وتسلسل الجينوم لديها. شُرِحَت بنية جزيء الحمض النووي (دي إن إيه)، الذي يشتهر باحتوائه على التعليمات الوراثية اللازمة لحياة الكائنات الحية، للمرة الأولى بوصفه حلزونًا مزدوجًا من قِبل جيمس واتسون وفرانسيس كريك عام ١٩٥٣. كان مشروع الجينوم البشري الدولي أحد أكثر المشروعات البحثية انتشارًا في السنوات الأخيرة، والذي يحدِّد التسلسل، أو الترتيب الدقيق، لثلاثة مليارات زوج من القواعد التي يتكوَّن منها الحمض النووي البشري. وفي نهاية المطاف، تساعد هذه البيانات الفِرق البحثية في دراسة الأمراض الوراثية.

البيانات في الوقت الحقيقي

تُجمَع بعض البيانات، وتُعالج، وتُستخدم في الوقت الحقيقي. سمحت زيادة قوة المعالجة الحاسوبية بزيادة القدرة على معالجة هذه البيانات وإنتاجها بسرعة. يحمل زمن الاستجابة في هذه الأنظمة أهميةً كبيرة؛ ومن ثمَّ يجب معالجة البيانات بصورة آنية. على سبيل المثال، يستخدم نظام تحديد المواقع العالمي (جي بي إس) نظامًا من الأقمار الصناعية لمسح الأرض وإرسال كميات هائلة من البيانات في الوقت الحقيقي. ومن ثمَّ، تُعالِج أجهزة استقبال نظام تحديد المواقع العالمي، والتي قد تكون في سيارتك أو هاتفك الذكي («ذكي» هنا تشير إلى أن جهازًا ما، هاتفًا في هذه الحالة، له القدرة على الوصول إلى شبكة الإنترنت وتقديم عدد من الخدمات أو التطبيقات التي يمكن ربطها معًا)، إشارات الأقمار الصناعية هذه وتحسب موقعك، وتوقيتك، وسرعتك.

أصبحت هذه التكنولوجيا مُستخدمةً الآن في تطوير السيارات التي من دون سائق أو الذاتية القيادة. وهذه التكنولوجيا مُستخدمة بالفعل في مناطق محددة ومتخصصة مثل المصانع والمزارع، وتطوَّرت على يد عدد من كبار المُصنِّعين، بما في ذلك شركات فولفو، وتِسلا، ونيسان. أجهزة الاستشعار وبرامج الكمبيوتر المشارِكة في هذه التكنولوجيا تعمل على معالجة البيانات في الوقت الحقيقي، حتى توجِّه السيارة بصورة يُعتمد عليها إلى وجهتك، وتتحكَّم في حركتها بالنسبة إلى مستخدمي الطريق الآخرين. يتطلَّب هذا رسمًا مسبقًا لخرائط ثلاثية الأبعاد للطرق لاستخدامها؛ لأن أجهزة الاستشعار لا يمكنها التعامل مع الطرق غير الظاهرة على الخرائط. تُستخدم أجهزة الاستشعار الرادارية لمتابعة حركة المرور للسيارات الأخرى، وترسل البيانات إلى كمبيوتر تنفيذي مركزي خارجي يتحكَّم في السيارة. ويجب برمجة أجهزة الاستشعار على رصد الأشكال والتمييز، على سبيل المثال، بين طفل يعدو عابرًا الطريق وجريدة تطير عبره؛ أو رصد، مثلًا، مخطَّط لخط السير في حالات الطوارئ بعد وقوع حادث. ولكن، هذه السيارات لا يمكنها بعد الاستجابة بالشكل المناسب لجميع المشكلات التي تفرضها البيئة الدائمة التغيُّر المحيطة بها.

وقع حادث التصادم المميت الأول الذي تضمَّن سيارةً ذاتية القيادة عام ٢٠١٦، عندما لم يُبدِ السائقُ البشري أو الآلي استجابةً تجاه اعتراضِ سيارة أخرى طريقَ هذه السيارة، بمعنى أن أيًّا منهما لم يضغط على مكابح السيارة استجابةً لذلك. أشارت شركة تِسلا، المُصنِّعة للسيارة الذاتية القيادة، في خبر صحفي في يونيو عام ٢٠١٦ إلى «الملابسات الشديدة الندرة التي أحاطت بحادث التصادم». يُنبِّه نظام القيادة الآلية السائقين إلى أنْ يُبقوا أيديهم على مقود السيارة طوال الوقت، بل إنه يتحقَّق حتى من أنهم يفعلون ذلك. صرَّحت شركة تِسلا بأن هذا الحادث هو حادث التصادم المميت الأول الذي يقع بسبب نظام القيادة الآلية لديها خلال ١٣٠ مليون ميل من القيادة، مقارنةً بحادث مميت واحد كلَّ ٩٤ مليون ميل تتسبَّب فيه القيادة العادية غير الآلية في الولايات المتحدة.

تشير التقديرات إلى أن كل سيارة ذاتية القيادة ستنتج في المتوسط ٣٠تيرابايت من البيانات يوميًّا، ويجب معالجة الكثير منها في الوقت الحقيقي تقريبًا. يأمل مجالٌ بحثي جديد، يُدعَى «تحليلات تدفق البيانات»، وهو يتخطَّى الطرق التقليدية للإحصاء ومعالجة البيانات، في تقديمه وسيلةً لحل هذه المشكلة المتعلِّقة بالبيانات الضخمة تحديدًا.

البيانات الفلكية

في شهر أبريل ٢٠١٤، قدَّر تقرير أعدَّته مؤسسة البيانات الدولية أنه بحلول عام ٢٠٢٠، سيصل حجم الكون الرقمي إلى ٤٤ تريليون جيجابايت (الجيجابايت الواحد يساوي ١٠٠٠ميجابايت)؛ أي حوالي ١٠ أضعاف حجمه عام ٢٠١٣. ثمة كمٌّ متزايدٌ من البيانات تُنتجه التلسكوبات. على سبيل المثال، التلسكوب الكبير جدًّا في تشيلي، وهو عبارة عن تلسكوب ضوئي يتكوَّن فعليًّا من أربعة تلسكوبات، ينتج كلٌّ منها كمًّا هائلًا من البيانات — ١٥تيرابايت كلَّ ليلة، وهذا كمُّ البيانات الإجمالي في الليلة الواحدة. يُعَد هذا التلسكوب حجر الأساس لمشروع المسح الشامل الكبير، وهو مشروع يمتد لعشر سنوات يُنتِج بصورة متكرِّرة خرائط لسماء الليل، ويُقدَّر أنه سيُنتِج إجمالي ٦٠بيتابايت (الأصوات المُعطاة لكل صفحة ٢^٥٠بايت) من البيانات.

يوجد تلسكوبٌ أكبر من حيث إنتاج البيانات، وهو التلسكوب الراديوي «مصفوفة الكيلومتر المربع باثفيندر»، الذي أُنشئ في أستراليا وجنوب أفريقيا، وبدأ العمل به عام ٢٠١٨. أنتجَ هذا التلسكوب ١٦٠تيرابايت من البيانات الخام كلَّ ثانية في بداية عمله، وازداد هذا الكمُّ مع اكتمال مراحله التالية. لن تُخزَّن جميع هذه البيانات، ولكن ستطرأ الحاجة إلى أجهزة كمبيوتر خارقة في جميع أنحاء العالم لتحليل البيانات المتبقية.

فيمَ تُستخدَم كلُّ هذه البيانات؟

من المستحيل تقريبًا في العصر الحالي أن يشارك المرء في الأنشطة اليومية ويتجنَّب ما يتم من جمع لبياناته الشخصية إلكترونيًّا. طاولات الدفع في المتاجر تجمع بياناتٍ عمَّا نشتريه، وشركات الطيران تجمع معلوماتٍ عن ترتيبات أسفارنا عندما نشتري تذكرة؛ والبنوك تجمع بياناتنا المالية.

تُستخدم البيانات الضخمة على نحو مُكثَّف في التجارة والطب، ولها تطبيقاتٌ في القانون، وعلم الاجتماع، والتسويق، والصحة العامة، وجميع فروع العلوم الطبيعية. للبيانات، بجميع صورها، القدرة على تقديم ثروة من المعلومات المفيدة إذا ما تمكَّنا من ابتكار طرق لاستخراج تلك المعلومات. إن الأساليب الجديدة التي تمزج بين طرق الإحصاء التقليدية وعلوم الكمبيوتر تزيد من إمكانية التطبيق العملي لتحليل مجموعات البيانات الضخمة. طُوِّرَت هذه الأساليب والخوارزميات على أيدي إحصائيين وعلماء كمبيوتر يبحثون عن أنماط متكرِّرة في البيانات. ويُعَد تحديد الأنماط المهمة مفتاحَ نجاح عمليات تحليل البيانات الضخمة. كما أن التغيرات التي جلبها العصر الرقمي غيَّرت إلى حدٍّ كبير طُرق جمع البيانات، وتخزينها، وتحليلها. ومنحتنا ثورة البيانات الضخمة السيارات الذكية وأجهزة المراقبة المنزلية.

نتجَ عن القدرة على جمع البيانات إلكترونيًّا ظهور مجال علم البيانات المثير، الذي يجمع بين مجالَي الإحصاء وعلوم الكمبيوتر؛ من أجل تحليل هذه الكميات الكبيرة من البيانات لاكتشاف معارف جديدة في مجالات التطبيق المتعدِّدة الاختصاصات. إنَّ الهدف المطلق للعمل على البيانات الضخمة هو استخراج المعلومات المفيدة. وأصبح اتخاذ القرارات في الشركات يعتمد على نحو متزايد على المعلومات المستخرَجة من البيانات الضخمة، ومن المتوقَّع أن يزداد الاعتماد عليها أكثر في المستقبل. ولكن، ثمة مشكلات كبيرة، لا سيَّما في ظل قلة عدد علماء البيانات المُدرَّبين القادرين على تطوير الأنظمة اللازمة لاستخراج المعلومات المرغوبة وإدارتها على نحو فعَّال.

من خلال الاستعانة بطرق جديدة مستقاة من علم الإحصاء، وعلوم الكمبيوتر، والذكاء الاصطناعي، يجري الآن تصميم خوارزمياتٍ تقدِّم أفكارًا وتطويراتٍ جديدةً في مجال العلوم. على سبيل المثال، على الرغم من أنه لا يمكن توقُّع وقت حدوث الزلازل ومكانه، فإن عددًا متزايدًا من المؤسسات تستخدم البيانات المُجمَّعة بواسطة الأقمار الصناعية وأجهزة الاستشعار الأرضية لمراقبة النشاط الزلزالي. والهدف من ذلك هو تحديد المكان التقريبي الذي من «المرجَّح» أن يشهد حدوث زلازل كبيرة على المدى الطويل. على سبيل المثال، قدَّرت هيئة المسح الجيولوجي الأمريكية، إحدى كبار المساهمين في أبحاث الزلازل، عام ٢٠١٦، أن «ثمة احتمالية قدرها ٧٦ في المائة أن زلزالًا شدَّتُه سبع درجات سيحدث في غضون الثلاثين عامًا القادمة في شمال كاليفورنيا». تساعد مثل هذه الاحتمالات في تكريس الموارد لوضع إجراءات، على غرار تحسين قدرة المباني على تحمُّل الزلازل، ووضع برامج لإدارة الكوارث وإدخالها حيِّز التنفيذ. تعمل العديد من الشركات، العاملة في هذه المجالات ومجالات أخرى، على البيانات الضخمة لتقديم أساليب تنبُّؤ مُحسَّنة، لم تكن متوافرةً قبل ظهور البيانات الضخمة. ومن ثمَّ، أصبحنا بحاجة إلى إلقاء نظرة على ما يميِّز البيانات الضخمة.