البيانات الضخمة والطب | البيانات الضخمة: مقدمة قصيرة جدًّا

معلوماتية الرعاية الصحية

تُستخدَم الأساليب العامة التي تحدَّثنا عنها في الفصول السابقة في جمع البيانات الطبية الضخمة، وتخزينها، وتحليلها. وبوجه عام، تَستَخدم معلوماتية الرعاية الصحية وفروعها المعرفية العديدة، مثل المعلوماتية السريرية والمعلوماتية الحيوية، البياناتِ الضخمة لتقديم رعاية مُحسَّنة للمرضى وتقليل التكاليف. لنتأمَّل معايير تعريف البيانات الضخمة (التي ناقشناها في الفصل الثاني) — الحجم، والتنوُّع، والسرعة، والموثوقية — ونرى كيف تنطبق على البيانات الطبية. يتحقَّق معيارَا الحجم والسرعة، على سبيل المثال، عند جمع البيانات المتعلقة بالصحة العامة عبر مواقع شبكات التواصل الاجتماعي من أجل تتبُّع مسار الأوبئة، ويتحقَّق معيار التنوع عند تخزين سجلات المرضى بالتنسيق النصي، سواءٌ أكان هيكليًّا أم غير هيكلي، وكذلك عند جمع بيانات أجهزة الاستشعار مثل البيانات التي تُوفِّرها أجهزة التصوير بالرنين المغناطيسي، ويُعَد معيار الموثوقية معيارًا أساسيًّا في الاستخدامات الطبية، ويُولي عنايةً فائقة بإزالة البيانات غير الدقيقة.

قد تكون وسائل التواصل الاجتماعي مصدرًا قيمًا للمعلومات ذات الصلة في المجال الطبي، وذلك من خلال جمع البيانات من مواقع مثل فيسبوك وتويتر والمدوَّنات المختلفة، ولوحات تبادل الرسائل، وعمليات البحث على الإنترنت. يوجد الكثير من لوحات تبادل الرسائل التي تركِّز على موضوعات معينة في مجال الرعاية الصحية، حيث تُقدِّم ثروةً من البيانات غير الهيكلية. جُمِعَت منشورات على كلٍّ من موقعَي فيسبوك وتويتر، باستخدام أساليب تصنيف مماثلة لتلك التي شرحناها في الفصل الرابع، لرصد تجربة التفاعلات غير المرغوبة تجاه الأدوية وتزويد مختصي الرعاية الصحية بمعلوماتٍ مفيدة بشأن تفاعلات الأدوية وإساءة استخدامها. أصبح التنقيب في البيانات عبر وسائل التواصل الاجتماعي، لأغراض البحث في مجال الصحة العامة، ممارسةً مُعترَفًا بها في المجتمع الأكاديمي.

تُقدِّم مواقع شبكات التواصل الاجتماعي المُخصَّصة للعاملين في المجال الطبي، مثل سيرمو إنتيليجنس، وهي شبكة طبية عالمية تصف نفسها بأنها «أكبر شركة عالمية في مجال جمع بيانات الرعاية الصحية»، لمختصي الرعاية الصحية فوائدَ فوريةً من حشد المصادر يكتسبونها من التعامل مع أقرانهم. تتزايد شهرة مواقع تقديم المشورة الطبية عبر الإنترنت؛ ومن ثمَّ فإنها تنشئ المزيد من المعلومات. ربما تكون مجموعة «السجلات الصحية الإلكترونية» المصدر الأهم بين تلك المواقع، وإن كانت إمكانية الوصول إليها غير متاحة للعامة. توفِّر هذه السجلات نسخةً إلكترونية من التاريخ الطبي الكامل للمريض، بما في ذلك التشخيصات الطبية، والأدوية الموصوفة، وصور الأشعة الطبية مثل أشعة إكس، وجميع المعلومات الأخرى ذات الصلة التي جُمعَت بمرور الزمن، ومن ثم إنشاء «مريض افتراضي»، وهو مفهوم سنتناوله لاحقًا في هذا الفصل. بالإضافة إلى استخدام البيانات الضخمة في تحسين رعاية المرضى وتقليل التكاليف، من خلال جمع المعلومات المتولِّدة من مجموعة متنوِّعة من المصادر عبر الإنترنت، أصبح من الممكن التفكير في التنبؤ بمسار الأوبئة الحديثة الظهور.

خدمة اتجاهات الأنفلونزا من جوجل

تواجه الولايات المتحدة كلَّ عام، شأن الكثير من الدول، وباء الأنفلونزا الذي يؤدي إلى زيادة الأعباء على الموارد الطبية وارتفاع الخسائر في الأرواح. تُمثِّل بياناتُ الأوبئة السابقة المقدَّمة من المركز الأمريكي لمكافحة الأمراض، وهو الوكالة المنوطة بمراقبة الصحة العامة، بالإضافة إلى أساليب تحليل البيانات الضخمة، القوةَ الدافعة لجهود الباحثين الرامية إلى التنبؤ بانتشار الأمراض من أجل تركيز الخدمات والحَدِّ من انتشار هذه الأمراض.

بدأ فريقُ خدمة اتجاهات الأنفلونزا العملَ على التنبؤ بأوبئة الأنفلونزا باستخدام بيانات محركات البحث. وانصبَّ عمله على الكيفية التي يمكن بها التنبؤ بوباء الأنفلونزا السنوي في فترة زمنية أقصر ممَّا يستغرقها حاليًّا مركز مكافحة الأمراض في معالجة بياناته. في رسالة نُشرَت في مجلة «نيتشر» العلمية المرموقة في فبراير ٢٠٠٩، شرحَ الفريقُ المُكوَّن من ستة من مهندسي البرامج لدى شركة جوجل ما كانوا بصدد تنفيذه. إذا أمكن استخدام البيانات في التنبؤ على نحو دقيق بمسار وباء الأنفلونزا السنوي في الولايات المتحدة، لأمكنَ احتواءُ المرض، وإنقاذ الأرواح، وتوفير الموارد الطبية. تطرَّقَ فريقُ جوجل إلى فكرة أن هذا الأمر يمكن تحقيقه من خلال جمع استعلامات محركات البحث بشأن المخاوف المتعلقة بمرض الأنفلونزا وتحليلها. آلت المحاولات السابقة لاستخدام بيانات الإنترنت في التنبؤ بانتشار الأنفلونزا إلى أحد أمرَين، لا ثالثَ لهما: إمَّا أنها باءت بالفشل، وإمَّا أنها حقَّقت نجاحًا محدودًا. ولكن، من خلال التعلُّم من الأخطاء السابقة في هذا البحث الرائد، راودَ الأملُ شركة جوجل ومركز مكافحة الأمراض في نجاح تجربة استخدام البيانات الضخمة المتولِّدة من استعلامات محركات البحث في تتبع مسار الوباء.

يجمع مركز مكافحة الأمراض، ونظيره البرنامج الأوروبي لرصد الأنفلونزا، البيانات من مختلِف المصادر، بما في ذلك الأطباء الذين يقدِّمون تقارير بأعداد المرضى الذين يعالجونهم ولديهم أعراض شبيهة بالأنفلونزا. ولكن، بحلول الوقت الذي يتم فيه دمج هذه البيانات، يكون قد مرَّ عليها عادةً أسبوعان، ويكون الوباء قد ازداد انتشارًا. باستخدام البيانات المُجمَّعة في الوقت الحقيقي من الإنترنت، كان فريقُ شركة جوجل ومركز مكافحة الأمراض يهدفان إلى تحسين دقة التنبؤات الخاصة بالوباء والتوصل إلى نتائج في غضون يوم واحد. ولتحقيق ذلك، جُمعَت بيانات حول استعلامات البحث المتعلِّقة بالأنفلونزا، والتي تراوحت ما بين البحث الفردي على الإنترنت عن طرق علاج الأنفلونزا وأعراضها، والبيانات الوفيرة مثل الاتصالات الهاتفية التي أُجريت بمراكز تقديم المشورة الطبية. واستطاعت جوجل الوصول إلى كمية هائلة من بيانات استعلامات البحث التي تجمَّعت لديها خلال الفترة ما بين عامَي ٢٠٠٣ و٢٠٠٨، ومن خلال استخدام عناوين «آي بي»، أمكنَ تحديد الموقع الجغرافي الذي نشأت منه استعلامات البحث؛ ومن ثمَّ، تصنيف البيانات في مجموعاتٍ حسب الولاية. جُمِعَت بيانات مركز مكافحة الأمراض من عشر مناطق، تتضمَّن كلٌّ منها البيانات التراكمية من مجموعة من الولايات (على سبيل المثال، تشمل المنطقة التاسعة ولايات أريزونا، وكاليفورنيا، وهاواي، ونيفادا)، وتُدمَج هذه البيانات بعد ذلك في النموذج.

اعتمدَ مشروع اتجاهات الأنفلونزا من جوجل على النتيجة المعروفة بأن ثمَّة ارتباطًا وثيقًا بين عدد عمليات البحث المتعلقة بالأنفلونزا على شبكة الإنترنت وعدد زيارات عيادات الأطباء. فإذا كان ثمة عدد كبير من الأشخاص في منطقة معينة يبحثون عن معلوماتٍ متعلِّقة بالأنفلونزا على شبكة الإنترنت، فربما أصبح بالإمكان توقُّع انتشار حالات الإصابة بالأنفلونزا في المناطق المجاورة لها. وبما أن الاهتمام ينصَب على تقدير الاتجاهات، أصبح من الممكن تجهيل البيانات؛ ومن ثمَّ انتفت ضرورة الحصول على موافقة الأفراد. وباستخدام بيانتها التراكمية على مدار خمس سنوات، والتي اقتصرت على الإطار الزمني نفسه لبيانات مركز مكافحة الأمراض؛ ومن ثمَّ جُمعَت خلال موسم الأنفلونزا فقط، حسبت جوجل معدل التكرار الأسبوعي لكل استعلام من استعلامات البحث الأكثر شيوعًا، البالغ عددُها ٥٠ مليونًا، التي تغطِّي جميع الموضوعات. ثم قُورنت أعداد استعلامات البحث هذه ببيانات مركز مكافحة الأمراض الخاصة بالأنفلونزا، واستُخدِمَت البيانات ذات الارتباط الأعلى في نموذج تقدير اتجاهات الأنفلونزا. اختارت جوجل استخدام أول ٤٥ مصطلحًا من مصطلحات البحث المتعلقة بالأنفلونزا وأكثرها تكرارًا، ثم تتبَّعتها في استعلامات البحث التي يُجريها الناس. وعلى الرغم من سرية القائمة الكاملة لمصطلحات البحث، فإنها تشمل، على سبيل المثال لا الحصر، «مضاعفات الأنفلونزا»، و«علاج نزلة البرد/الأنفلونزا»، و«الأعراض العامة للأنفلونزا». شكَّلت البيانات التاريخية خطًّا مرجعيًّا يُقيَّم على أساسه تأثير الأنفلونزا الحالي على مصطلحات البحث المختارة، وبمقارنة بيانات الوقت الحقيقي الجديدة بهذه البيانات، وُضِع على مقياس من ١ إلى ٥، حيث يعني العدد ٥ الأكثر خطورة.

استُخدِمَت خوارزمية «جوجل للبيانات الضخمة» في موسمَي الأنفلونزا للعام ٢٠١١-٢٠١٢ والعام ٢٠١٢-٢٠١٣، ولكنها فشلت في تحقيق أهدافها. وبعد انتهاء موسم الأنفلونزا، قُورنت تنبؤاتها بالبيانات الفعلية لمركز مكافحة الأمراض. خلال إنشاء النموذج، الذي كان يجدر به أن يكون تمثيلًا جيدًا لاتجاهات الأنفلونزا المستقاة من البيانات المتوافرة، جاءَ عددُ حالات الإصابة بالأنفلونزا الذي توصَّلت إليه خوارزمية «اتجاهات الأنفلونزا من جوجل» مبالغًا فيه؛ حيث فاقَ العددَ الفعلي بنسبة ٥٠ بالمائة على الأقل خلال الأعوام التي استُخدمَت فيها الخوارزمية. توجد أسباب عدة لعدم تحقيق هذا النموذج النجاح المأمول. فقد استُبعدَت بعضُ مصطلحات البحث عَمدًا؛ لأنها لم توافق توقُّعات فريق البحث. والمثال الأشهر والأكثر تداولًا على ذلك هو أن رياضة كرة السلة في المدارس الثانوية، التي يبدو أنها لا علاقة لها بالأنفلونزا، كانت رغم ذلك مرتبطةً ارتباطًا وثيقًا ببيانات مركز مكافحة الأمراض، ولكنها استُبعِدَت من النموذج. دائمًا ما تُمثِّل عملية اختيار المتغيِّر، وهي العملية التي تُختار فيها عوامل التنبؤ الأكثر ملاءمة، مشكلةً مستعصية؛ ومن ثمَّ فإنها تُجرَى باستخدام الخوارزميات تجنُّبًا للانحياز. حافظت جوجل على سرية التفاصيل الخاصة بخوارزميتها، مشيرةً فقط إلى أنَّ رياضة كرة السلة في المدارس الثانوية قد حلَّت ضمن أعلى ١٠٠ مصطلح بحث استخدامًا، وبرَّرت استبعادها بتوضيح أن كلًّا من الأنفلونزا وكرة السلة يبلغان الحد الأقصى لمعدَّل الاستخدام في الوقت نفسه من العام.

كما أشرنا سابقًا، استخدمت جوجل خلال إنشاء النموذج الخاص بها ٤٥ مصطلح بحث لتكون بمثابة عوامل تنبؤ بالأنفلونزا. ولو أنها استخدمت مصطلحَ بحثٍ واحدًا، ﮐ «الأنفلونزا» على سبيل المثال، لكانت معلوماتٍ مهمةً وذات صلة، مثل جميع عمليات البحث المتعلِّقة ﺑ «علاج نزلات البرد»، قد مرَّت دون ملاحظة أو توثيق. تزداد دقة التنبؤ مع الاستعانة بعددٍ كافٍ من مصطلحات البحث، ولكن من الوارد أن تقل أيضًا إذا كان عدد مصطلحات البحث أكثر من اللازم. تُستخدَم البيانات الحالية كبيانات تدريبية لإنشاء نموذج يمكنه التنبؤ باتجاهات البيانات المستقبلية، ونظرًا لوجود عدد كبير للغاية من عوامل التنبؤ، لا يُضمَّن في البيانات التدريبية للنموذج سوى حالاتٍ عشوائية قليلة؛ ومن ثمَّ، فإنه على الرغم من أن النموذج يتوافق جيدًا مع البيانات التدريبية، فإنه لا يمكنه تقديم تنبؤاتٍ جيدة. يبدو أن هذه الظاهرة المتناقضة، التي تُسمَّى «الملاءمة المفرطة»، لم يضعها فريق العمل في اعتبارهم بما يكفي. ربما كان استبعادُ كرة السلة في المدارس الثانوية كأحد عوامل التنبؤ بسبب أنه يتزامن مع موسم الأنفلونزا أمرًا منطقيًّا، إلا أن ثمَّة ٥٠ مليون مصطلح بحث آخر، ومع وجود هذا العدد الكبير فإنه لأمرٌ شبه محتَّم أن ترتبط مصطلحاتُ بحثٍ أخرى ارتباطًا وثيقًا ببيانات مركز مكافحة الأمراض، ولكنها لن تكون ذات صلة باتجاهات الأنفلونزا.

يتردَّد على عيادات الأطباء أشخاصٌ يعانون أعراضًا شبيهة بالأنفلونزا، إلا أن التشخيص غالبًا لا يكون الإصابة بالأنفلونزا (ربما يكون — مثلًا — نزلة برد عادية). أفرزت البيانات التي استخدمتها جوجل، وجمعتها على نحو انتقائي من استعلامات محرِّك البحث، نتائج غير سليمة من الناحية العلمية جراء التحيُّز الواضح، الذي نتجَ — على سبيل المثال — من استبعاد كلِّ مَن لا يستخدمون أجهزة الكمبيوتر وكلِّ مَن يستخدمون محركات بحثٍ أخرى. وثمَّة مشكلة أخرى ربما ساهمت في هذه النتائج غير الدقيقة، وهي أن العملاء الذين يبحثون في محرك بحث جوجل عن «أعراض الأنفلونزا» ربما تصفَّحوا بالفعل عددًا من المواقع الإلكترونية المتعلقة بالأنفلونزا، ممَّا أدَّى إلى حساب مرات استخدام هذا المصطلح وحده من مصطلحات البحث أكثر من مرة؛ ومن ثمَّ أدَّى إلى تفاقُم الأعداد. علاوةً على ذلك، يتغيَّر سلوك البحث بمرور الوقت، لا سيَّما في فترات تفشي الأوبئة، ولا بد من وضع هذا الأمر في الاعتبار عن طريق تحديث النموذج بصفة دورية. عندما تبدأ أخطاء التنبؤ في الظهور، فإنها تميل إلى التتابع، وهذا ما حدث مع تنبؤات «اتجاهات الأنفلونزا من جوجل»: انتقلت أخطاءُ أسبوعٍ ما إلى الأسبوع الذي يليه. دُرِسَت استعلامات البحث كما ظهرت بالفعل، ولم تُصنَّف في مجموعاتٍ حسب الهجاء أو الصياغة. وكان المثال الذي قدَّمته جوجل على ذلك هو أن كلًّا من عبارات «دلائل الأنفلونزا»، و«الدلائل على الأنفلونزا»، و«الدلائل على مرض الأنفلونزا» قد أُحصي كلٌّ منها على حدة.

تعرَّض البحث، الذي يرجع تاريخه إلى موسم ٢٠٠٧-٢٠٠٨، للكثير من الانتقادات، التي كان بعضُها متحامِلًا، إلا أن الانتقادات كانت تتعلَّق عادةً بافتقار الشفافية، على سبيل المثال، رفضُ الكشف عن كلِّ مصطلحات البحث المختارة والإحجام عن قَبول الطلبات المقدَّمة من المجتمع الأكاديمي للحصول على معلومات. إن بيانات استعلامات محرك البحث ليست نتاج تجربة إحصائية مخطَّطة، كما أنَّ إيجاد طريقة لتحليل هذه البيانات على نحو مُجدٍ واستخراج معلوماتٍ مفيدة منها يُعد مجالًا جديدًا ومليئًا بالتحديات قد يستفيد من التعاون. في موسم ٢٠١٢-٢٠١٣، أدخلت جوجل تغييراتٍ كبيرةً على خوارزمياتها، وبدأت في استخدام أسلوب رياضي جديد نسبيًّا يُسمَّى «إلاستيكنت»؛ أي الشبكة المرنة، والذي يوفِّر وسيلةً دقيقة لاختيار عوامل التنبؤ اللازمة وتقليل عددها. عام ٢٠١١، بدأت جوجل مشروعًا مماثلًا لتتبُّع مسار حُمَّى الضَّنك، ولكنها لم تَعُد تنشر تنبؤاتٍ حيالها، وعام ٢٠١٥ تمَّ إيقاف مشروع اتجاهات الأنفلونزا من جوجل. ولكنها أصبحت الآن تشارك بياناتها مع الباحثين الأكاديميين.

قدَّم مشروع اتجاهات الأنفلونزا من جوجل، إحدى المحاولات الأولى لاستخدام البيانات الضخمة في التنبؤ بالأوبئة، أفكارًا مفيدة للباحثين الذين شرعوا في عملهم بعد هذا المشروع. وعلى الرغم من أن نتائج المشروع لم ترقَ لمستوى التوقعات، فمن الوارد فيما يبدو أن تظهر في المستقبل طرقٌ أفضل، وعندئذٍ ستتحقَّق الإمكاناتُ الكاملة للبيانات الضخمة في مجال تتبع مسار الأوبئة. أُجريت إحدى هذه المحاولات على يد فريق من العلماء من مختبر لوس ألاموس الوطني في الولايات المتحدة، باستخدام بياناتٍ من موسوعة ويكيبيديا. وفازَ فريقُ دلفي البحثي في جامعة كارنيجي ميلون بتحدي مركز مكافحة الأمراض تحت عنوان «تنبَّأ بالأنفلونزا» عن موسمَي ٢٠١٤-٢٠١٥ و٢٠١٥-٢٠١٦ لاختيار أفضل خبراء التنبؤ. نجحَ الفريقُ في استخدام بياناتٍ من جوجل وتويتر وويكيبيديا لمراقبة حالات تفشي الأنفلونزا.

تفشي وباء الإيبولا في غرب أفريقيا

شهدَ العالمُ قديمًا الكثيرَ من الأوبئة؛ فقد قتلت الأنفلونزا الإسبانية عامَي ١٩١٨-١٩١٩ ما يتراوح بين ٢٠ و٥٠ مليون نسمة، وبلغَ إجمالي عدد الإصابات وقتها نحو ٥٠٠ مليون نسمة. كانت المعلومات المتوافرة عن الفيروس قليلةً للغاية، ولم يكن هناك علاج مجدٍ، وكانت استجابة الصحة العامة محدودة، وهو أمرٌ يرجع بلا شك إلى نقص المعرفة. تغيَّر هذا الوضع عام ١٩٤٨ بالافتتاح الرسمي لمنظمة الصحة العالمية، التي تولَّت مسئولية مراقبة الصحة العالمية وتحسينها من خلال التعاون والتضافر بين دول العالم. في الثامن من أغسطس عام ٢٠١٤، في اجتماعٍ هاتفي عن بُعد للجنة الطوارئ المَعنيَّة باللوائح الصحية الدولية، أعلنت منظمة الصحة العالمية أن تفشي الإيبولا في غرب أفريقيا أصبح يشكِّل رسميًّا «طارئةً صحية عامة تثير قلقًا دوليًّا». وطبقًا للتعريف الذي قدَّمته منظمة الصحة العالمية لهذه العبارة، فإنَّ تفشي الإيبولا قد شكَّل «حدثًا استثنائيًّا» يستوجب جهودًا دولية غير مسبوقة لاحتوائه؛ ومن ثمَّ، تفادي حدوث وباء.

طَرَحَ تفشي الإيبولا في غرب أفريقيا في ٢٠١٤، الذي اقتصر في الأساس على دول غينيا وسيراليون وليبيريا، مجموعةً مختلفة من المشكلات مقارنةً بمشكلات تفشي وباء الأنفلونزا السنوي في الولايات المتحدة. كانت البيانات التاريخية عن فيروس الإيبولا إمَّا غير موجودة وإمَّا غير مفيدة؛ لأنه لم يُسجَّل من قبلُ تفشٍّ بهذا الحجم لهذا الفيروس، وعليه، ظهرت الحاجة لوضع استراتيجيات جديدة للتعامل معه. وعلى ضوء معرفة تحركات السكان التي من شأنها أن تساعد العاملين في مجال الصحة العامة في مراقبة انتشار الأوبئة، كان يُعتقَد أنه يمكن استخدام المعلومات التي تمتلكها شركات الهواتف المحمولة في متابعة حركات السفر في المناطق الموبوءة، وتطبيق إجراءات، على غرار فرض قيود على السفر، من شأنها أن تحتوي الفيروس؛ ومن ثمَّ، إنقاذ الأرواح. كان من المفترض في نموذج التفشي في الوقت الحقيقي الناتج أن يتنبَّأ بالأماكن التي على الأرجح أن يتفشَّى فيها المرضُ بعد ذلك، ومن ثمَّ تركيز الموارد طبقًا لذلك.

إنَّ المعلومات الرقمية التي يمكن جمعها من الهواتف المحمولة أوليةٌ بعضَ الشيء؛ رقم هاتف كلٍّ من المتصل والمتصَل به، وموقع تقريبي للمتصل؛ فالاتصالات التي تُجرَى باستخدام الهاتف المحمول تُنشئ سِجلًّا يمكن استخدامه في تقدير موقع المتصل بِناءً على برج الاتصالات المُستخدَم لكل اتصال. فرضَ الوصولُ إلى هذه البيانات عددًا من المشكلات: شكَّلت مسائل الخصوصية هاجسًا حقيقيًّا؛ نظرًا لإمكانية الاستدلال على الأشخاص الذين لم يوافقوا على تتبُّع مسار مكالماتهم وتحديد هُويتهم.

في بلدان غرب أفريقيا التي مُنيَت بتفشي الإيبولا، لم تكن كثافة استخدام الهواتف المحمولة متماثلة، حيث سُجِّلَت أقلُ النسب في المناطق الريفية الفقيرة. على سبيل المثال، كان ما يزيدُ قليلًا عن نصف العائلات في ليبيريا وسيراليون عام ٢٠١٣، وهما دولتان من الدول التي تأثرت تأثيرًا مباشرًا بتفشي الإيبولا عام ٢٠١٤، لديه هواتف محمولة، ومع ذلك كانت البيانات التي قدَّموها كافيةً لتتبع حركة سكان الدولتَين على نحو مفيد.

أُعطيت بعضُ البيانات التاريخية التي جرى جمعها من الهواتف المحمولة إلى مؤسسة فلومايندر، وهي مؤسسة غير ربحية مقرُّها السويد، تُكرِّس نشاطها للتعامل مع البيانات الضخمة بشأن مشاكل الصحة العامة التي تؤثِّر في دول العالم الأكثر فقرًا. عام ٢٠٠٨، كانت مؤسسة فلومايندر أولَ جهة تستخدم بيانات شركات اتصالات الهواتف المحمولة في تتبُّع حركة السكان في بيئة حافلة بالتحديات الطبية، وذلك ضمن مبادرة أطلقتها منظمة الصحة العالمية للقضاء على مرض الملاريا؛ ومن ثمَّ، كانت أحد الاختيارات البديهية للتعامل مع أزمة الإيبولا. استخدم فريقٌ دوليٌّ بارز البيانات التاريخية المُجَهلة في وضع خرائط لحركة السكان في المناطق الموبوءة بالإيبولا. لم تكن هذه البيانات التاريخية مُستخدَمةً على نطاق واسع؛ نظرًا لتغيُّر سلوكيات السكان في فترات الأوبئة، إلا أنها أعطت مؤشراتٍ قويةً عن الأماكن التي سيميل الناس إلى السفر إليها في حالات الطوارئ. وتُقدِّم سجلات نشاط أبراج الهواتف المحمولة تفاصيل عن أنشطة السكان في الوقت الحقيقي.

ومع ذلك، جاءت أرقام تنبؤات تفشي الإيبولا التي نشرتها منظمة الصحة العالمية أعلى بما يزيد عن ٥٠ بالمائة من الحالات المُسجَّلة فعليًّا.

تشابهت المشكلات الخاصة بتحليلات اتجاهات الأنفلونزا من جوجل والإيبولا في أنَّ خوارزميات التنبؤ المُستخدَمة في كليهما كانت تعتمد فقط على البيانات الأولية، ولم تأخذ في اعتبارها الظروفَ المتغيرة. افترضَ كلٌّ من هذَين النموذجَين، بصفة أساسية، أن عدد حالات الإصابة سيواصل الارتفاع بالمعدَّل نفسه في المستقبل مثلما حدثَ قبل بدء التدخل الطبي. ومن الواضح أنه كان يُتوقَّع أن تكون للتدابير الطبية وتدابير الصحة العامة تأثيراتٌ إيجابية، ولكنها لم تُضمَّن في النموذج.

سُجِّلَت أولُ إصابة بفيروس زيكا، الذي تنقُله البعوضة الزاعجة، عام ١٩٤٧ في أوغندا، ثم انتشر بعيدًا عن مكان الإصابة الأولى ليصل إلى آسيا والأمريكتَين. أدَّى تفشي فيروس زيكا الحالي، الذي بدأ في البرازيل عام ٢٠١٥، إلى ظهور حالة أخرى من طوارئ الصحة العامة التي تثير قلقًا دوليًّا. كانت ثمَّة دروس مستفادة من العمل الذي قام به مشروع اتجاهات الأنفلونزا من جوجل وخلال تفشي الإيبولا، تتعلَّق بإعداد النماذج الإحصائية باستخدام البيانات الضخمة، وأصبح من المُتفَق عليه عمومًا الآن ضرورة جمع البيانات من مصادر متعدِّدة. ولعلك تتذكَّر أنَّ مشروع اتجاهات الأنفلونزا من جوجل جمعَ البيانات من محرك بحث جوجل فقط.

زلزال نيبال

إذن، ما مستقبل تتبُّع مسار الأوبئة باستخدام البيانات الضخمة؟ استُخدمَت خصائصُ الوقت الحقيقي لسجلات تفاصيل مكالمات الهواتف المحمولة في المساعدة في مراقبة حركة السكان خلال الكوارث، مثلما حدث خلال زلزال نيبال وتفشي أنفلونزا الخنازير في المكسيك. على سبيل المثال، استخدم فريقٌ دوليٌّ تابع لمؤسسة فلومايندر، بالإضافة إلى علماء من جامعتَي ساوثامبتون وأكسفورد، فضلًا عن مؤسساتٍ في الولايات المتحدة والصين، بعد زلزال نيبال الذي وقعَ في الخامس والعشرين من أبريل عام ٢٠١٥، سجلات تفاصيل مكالمات الهواتف المحمولة في تقديم تقديرات لحركة السكان. نسبة كبيرة من سكان نيبال لديهم هواتف محمولة، وباستخدام البيانات المُجَهَّلة لاثنَي عشر مليون مشترك في الخدمة، تمكَّن فريقُ مؤسسة فلومايندر من تتبُّع حركة السكان خلال تسعة أيام من وقوع الزلزال. ترجع هذه الاستجابة السريعة، في جزءٍ منها، إلى وجود اتفاق سارٍ مع مزوِّد الخدمة الرئيسي في دولة نيبال، والذي استُكمِلَت تفاصيله الفنية قبل أسبوع واحد فقط من وقوع الكارثة. ونظرًا لوجود خادم مخصَّص تبلغ السعة التخزينية لقرصه الصلب ٢٠ تيرابايت في مركز بيانات مزوِّدي الخدمة، تمكَّن الفريقُ من بدء العمل على الفور، ما أدَّى إلى إتاحة المعلومات أمام مؤسسات الإغاثة من الكوارث في غضون تسعة أيام فقط من وقوع الزلزال.

البيانات الضخمة والطب الذكي

في كل مرة يزور مريضٌ عيادةَ طبيب أو مستشفًى، تُجمَع بياناتٌ إلكترونية بصفة روتينية. تُشكِّل السجلات الصحية الإلكترونية الوثيقة القانونية لجهات اتصال الرعاية الصحية الخاصة بالمريض؛ ذلك حيث تُسجَّل تفاصيلُ على غرار التاريخ الطبي للمريض، والأدوية الموصوفة، ونتائج الفحوصات. ومن الوارد أيضًا أن تشمل السجلات الصحية الإلكترونية بيانات أجهزة الاستشعار، مثل فحوصات التصوير بالرنين المغناطيسي. وقد تُجهل البيانات وتُجمَع لأغراضٍ بحثية. كانت هناك تقديرات تشير إلى أنه بحلول عام ٢٠١٥ ستُخزِّن المستشفى العادية في الولايات المتحدة ما يزيد عن ٦٠٠ تيرابايت من البيانات، أغلبها بياناتٌ غير هيكلية. وكان السؤال كيف يمكن التنقيب في هذه البيانات للحصول على معلوماتٍ من شأنها تحسين رعاية المرضى وتقليل التكاليف؟ ما حدث باختصار أننا أخذنا البيانات، سواءٌ الهيكلية أو غير الهيكلية، وحدَّدنا السمات ذات الصلة بمريض أو مجموعة من المرضى، واستخدمنا الأساليبَ الإحصائية على غرار التصنيف والانحدار في إعداد نموذج بالنتائج. تُجمَع الملاحظات الخاصة بحالة المرضى بصفة أساسية بالتنسيق النصي غير الهيكلي، ولتحليل هذه الملاحظات على نحو فعَّال، يتطلَّب الأمر استخدام أساليب معالجة اللغات الطبيعية، كتلك المستخدَمة من قِبل نظام واتسون من شركة آي بي إم، والذي سنتحدَّث عنه في الجزء التالي.

طبقًا لشركة آي بي إم، كان المتوقَّع بحلول عام ٢٠٢٠ أن تتضاعف كمية البيانات الطبية كلَّ ٧٣ يومًا. ومع تزايد استخدامها في مراقبة الأصحاء، أصبحت الأجهزة القابلة للارتداء تُستخدَم على نطاق واسع في حساب عدد الخطوات التي نخطوها كلَّ يوم، وقياس احتياجاتنا من السعرات الحرارية وموازنتها، ومتابعة أنماط النوم لدينا، وكذلك تقديم معلومات فورية عن معدل نبضات القلب وضغط الدم. بعد ذلك، تُرفَع المعلومات المُجمَّعة على أجهزة الكمبيوتر وتُحفَظ السجلات على نحو خاص، أو — كما هو الحال أحيانًا — تجري مشاركتها طوعًا مع أصحاب العمل. سيوفِّر هذا التتابع الواقعي للبيانات المتعلِّقة بالأفراد للعاملين في مجال الرعاية الصحية بيانات قيمَّةً عن الصحة العامة، كما سيوفر وسيلةً لملاحظة التغييرات التي تطرأ على الأفراد والتي قد تساعد في تجنُّب الأزمات القلبية، على سبيل المثال. كما أنَّ البيانات المتعلِّقة بفئات السكان ستمكِّن الأطباءَ من تتبُّع الأعراض الجانبية لدواءٍ معين، على سبيل المثال، بِناءً على خصائص المرضى.

بعد اكتمال مشروع الجينوم البشري عام ٢٠٠٣، تزايدت أهمية البيانات الوراثية بوصفها جزءًا من السجلات الطبية للأفراد، كما ستُقدِّم ثروةً من البيانات البحثية. كان الهدفُ من مشروع الجينوم البشري وضعَ خريطةٍ بكل الجينات البشرية. يُطلَق على المعلومات الوراثية للكائن الحي مجتمعةً اسم الجينوم. يحتوي الجينوم البشري، إجمالًا، على حوالي ٢٠ ألف جين، ويتطلَّب وضع خريطة لهذا الجينوم نحو ١٠٠جيجابايت من البيانات. ممَّا لا شك فيه أنَّ هذا المجال من أبحاث الوراثة هو مجالٌ شديد التعقيد والتخصُّص والتشعُّب، إلا أن النتائج المترتبة على استخدام أساليب تحليل البيانات الضخمة تسترعي الاهتمام. ومن ثمَّ، حُفِظَت المعلوماتُ التي جُمعَت عن الجينات في قواعد بياناتٍ ضخمة؛ ولذا، ظهرت مؤخَّرًا مخاوف من احتمالية تعرض هذه المعلومات للقرصنة، ممَّا يؤدِّي إلى تحديد هُويات المرضى الذين ساهموا بحمضهم النووي. وقُدِّم اقتراح بأنه، لأغراضٍ أمنية، يجب إضافة معلوماتٍ زائفة إلى قواعد البيانات، وإنْ كانت ليست بالقدر الذي من شأنه أن يؤثر على الأبحاث الطبية. ازدهرَ مجالُ المعلوماتية الحيوية المتعدِّد التخصُّصات بسبب الحاجة إلى إدارة البيانات الضخمة الناتجة عن علم الجينوم وتحليلها. وتزايدت سرعةُ التسلسل الجيني وقلَّت تكلفتُه كثيرًا خلال السنوات الأخيرة؛ ومن ثمَّ، أصبحَ الآن وضعُ خرائط لجينوم الأفراد أمرًا ممكنًا من الناحية العملية. مع وضع تكاليف ١٥ عامًا من الأبحاث في الاعتبار، بلغت تكلفة تحديد تسلسل الجينوم البشري الأول ما يقارب ٣ ملايين دولار. وبدأت الكثير من الشركات الآن في عرض خدماتها في مجال تحديد تسلسل الجينوم على الأفراد بأسعار معقولة.

تفرَّع من مشروع الجينوم البشري مشروعُ الإنسان الفسيولوجي الافتراضي الذي يهدف إلى إنشاء عروض تقديمية على أجهزة الكمبيوتر تُتيح للأطباء السريريين محاكاة طُرق العلاج الطبي وتحديد الأنسب منها لكل مريض، وتقوم على البيانات المستقاة من بنك هائل لبيانات مرضى فعليين. وبمقارنة هذه البيانات بأعراض مماثلة أو تفاصيل طبية ذات صلة، يمكن للنموذج المُعَد باستخدام الكمبيوتر أن يتنبَّأ بالنتيجة المرجَّحة التي تتضمَّن طريقة علاج لمريض بعينه. علاوةً على ذلك، تُستخدَم أساليب التنقيب في البيانات التي يمكن دمجها مع عمليات المحاكاة الحاسوبية لإضفاء طابع شخصي على طرق العلاج الطبية حسب كل مريض؛ ومن ثمَّ، يمكن دمج نتائج التصوير بالرنين المغناطيسي في أي محاكاة منها. وهكذا، يُتوقَّع أن يحتوي المريض الرقمي المستقبلي على جميع المعلومات التي تخصُّ مريضًا فعليًّا، والتي تُحدَّث طِبقًا لبيانات الأجهزة الذكية. ولكن، يشكِّل أمن البيانات تحديًا كبيرًا على نحو متزايد أمام المشروع.

استخدام نظام واتسون في الطب

عام ٢٠٠٧، قرَّرت شركة آي بي إم أن تُنشئ جهاز كمبيوتر تتحدَّى به أقوى الشركات المنافسة لها في برنامج المسابقات «جيوباردي»، الذي يُعرَض على شاشة التلفزيون الأمريكي. وُضع واتسون، وهو نظام لتحليل البيانات الضخمة سُمِّي تَيمُّنًا بمؤسِّس شركة آي بي إم، توماس جون واتسون، في مواجهة اثنَين من أبطال برنامج جيوباردي: براد روتر، صاحب سلسلة فوز متتالية بلغت ٧٤ مرة، وكين جينينجز، الذي حصدَ إجمالي مبلغ ٣٫٢٥ ملايين دولار أمريكي. جيوباردي هو برنامج مسابقاتٍ يعطي فيه مضيفُ البرنامج «إجابة»، وعلى المتسابق أن يخمِّن «السؤال». تُجرَى المسابقة بين ثلاثة متسابقين، وتندرج الإجابات أو أدلة الإجابة ضمن عدة فئات على غرار العلوم، والرياضة، وتاريخ العالم إلى جانب فئاتٍ غير مألوفة أو غريبة، مثل «قبل وبعد». على سبيل المثال، إذا كان دليل الإجابة: «يوجد شاهِد قبره في فناء كنيسة هامبشاير ومكتوبٌ عليه: فارس، ووطني، وطبيب، وأديب، ٢٢ مايو ١٨٥٩-٧ يوليو ١٩٣٠»، فستكون الإجابة: «مَن هو السير آرثر كونان دويل؟». وفي الفئة الأقل وضوحًا «اقبضْ على هؤلاء الرجال»، إذا كان دليل الإجابة: «مطلوب القبض عليه في ١٩ جريمة قتل، فَرَّ هذا الرجلُ المولود في بوسطن عام ١٩٩٥، وأُلقي القبض عليه أخيرًا في سانتا مونيكا عام ٢٠١١»، فستكون الإجابة: «مَن هو وايتي بولجر؟» حُذِفَت أدلة الإجابة، التي قُدِّمَت إلى واتسون في صورة نصوص ورموز صوتية ومرئية، من المسابقة.

تُمثِّل معالجة اللُّغات الطبيعية، كما تُعرَف في مجال الذكاء الاصطناعي، تحديًا كبيرًا لعلوم الكمبيوتر، وكانت ضروريةً لتطوير نظام واتسون. وعطفًا على ما سبق، يجب أن تكون المعلومات قابلةً للوصول إليها واسترجاعها بسهولة، ويُمثِّل هذا الأمر مشكلةً في مجال تعلُّم الآلة. بدأ فريق الأبحاث عمله بتحليل أدلة الإجابة الخاصة بمسابقة جيوباردي طبقًا لنوع الإجابة المعجمي، الذي يُصنِّف نوعَ الإجابة المُحدَّد في الدليل. في المثال الثاني الذي ذكرناه، نوع الإجابة المعجمي هو «المولود في بوسطن». أمَّا المثال الأول، فلا يوجد فيه نوع إجابة معجمي؛ إذ لا تُفيد الضمائرُ هذه العملية كثيرًا. وبتحليل ٢٠ ألف دليل إجابة، عثر فريقُ آي بي إم على ٢٥٠٠ نوع إجابة معجمي فريد، إلا أن هذا العدد لم يغطِّ إلا حوالي نصف أدلة الإجابة فقط. بعد ذلك، يُحلَّل دليلُ الإجابة لتحديد الكلمات الرئيسية والعلاقات بينها. وتُسترجَع المستنداتُ ذات الصلة من بيانات الكمبيوتر الهيكلية وغير الهيكلية ويُبحَث فيها. وتُوضَع فرضياتٌ بِناءً على التحليلات المبدئية، وبالبحث في أدلة إجابة أكثر عُمقًا، يُعثَر على الإجابات المُحتمَلة.

للفوز بمسابقة جيوباردي، كان لا بد من استخدام الأساليب السريعة المتطوِّرة فيما يخصُّ معالجة اللغات الطبيعية، وتعلُّم الآلة، والتحليل الإحصائي. وكان من بين العوامل الأخرى الواجب مراعاتها الدقة واختيار الفئة. وأُنشئ معيار للأداء المقبول باستخدام بيانات الفائزين السابقين. وبعد عدة محاولات، جاء الحل في صورة تحليل عميق للأسئلة والأجوبة، أو ما يُسمَّى «ديب كيو إيه»، وهو عبارة عن دمجٍ للكثير من أساليب الذكاء الاصطناعي. يستخدم هذا النظامُ مجموعةً كبيرة من أجهزة الكمبيوتر، التي تعمل بالتوازي ولكنها ليست متصلة بالإنترنت، ويعتمد على الاحتمالية وبراهين الخبراء. بالإضافة إلى التوصل إلى إجابة، يستخدم واتسون خوارزميات حساب حَد الثقة لإتاحة إمكانية العثور على أفضل نتيجة. ولا يُشير واتسون إلى أنه جاهز لإعطاء الإجابة إلا عندما يصل إلى حَد الثقة المُعيَّن، وهو ما يكافئ ضغط المتنافس البشري على زر الجرس. تمكَّن واتسون من هزيمة بَطَلَي جيوباردي. واستُشهِد بمقولة جينينجز، الذي تقبَّل الهزيمة بصدر رحب، حيث قال: «من جانبي، فأنا أرحِّب بسادتنا الجُدد من أجهزة الكمبيوتر».

يسترجع نظام واتسون الطبي، القائم على نظام واتسون الأصلي الخاص بمسابقة جيوباردي، كلًّا من البيانات الهيكلية وغير الهيكلية ويحلِّلها. وبما أنه يبني قاعدة المعارف الخاصة به بنفسه، فإنه بالأساس نظام يُجري نمذجةً لعمليات التفكير البشري في مجال معين. تعتمد التشخيصات الطبية على كل المعلومات الطبية المتوافرة، والتي تكون مُثبَتةً بالأدلة ودقيقةً إلى الحَدِّ الذي تكون معه المُدخلات دقيقةً ومتسقة وتتضمَّن جميع المعلومات ذات الصلة. يتمتَّع الأطباءُ البشريون بالخبرة، ولكنهم غير معصومين من الخطأ، وبعضهم بارعٌ في التشخيص أكثر من غيره. تشبه هذه العملية الآلية المتبَعة في نظام واتسون الخاص بمسابقة جيوباردي، حيث تُؤخَذ في الاعتبار جميع المعلومات ذات الصلة وتُعطَى التشخيصات مع تحديد درجة ثقة لكلٍّ منها. وتسمح تقنيات الذكاء الاصطناعي المُضمَّنة في نظام واتسون بمعالجة البيانات الضخمة، بما في ذلك الكميات الهائلة الناتجة عن التصوير التشخيصي الطبي.

أصبح كمبيوتر واتسون العملاق حاليًّا نظامًا متعدِّد التطبيقات، وحقَّق نجاحًا تجاريًّا هائلًا. علاوةً على ذلك، يشارك واتسون في الجهود الإنسانية، ويحدث هذا — على سبيل المثال — من خلال نظام تحليلاتٍ مفتوح المصدر طُوِّر خصوصًا للمساعدة في تتبُّع انتشار الإيبولا في دولة سيراليون.

خصوصية البيانات الطبية الضخمة

تأكَّدَ بوضوح أن البيانات الضخمة لديها القدرة على التنبؤ بانتشار الأمراض وتخصيص طرق العلاج، ولكن، ماذا عن الوجه الآخر للعُملة: خصوصية البيانات الطبية للأشخاص؟ مع تزايد استخدام الأجهزة القابلة للارتداء وتطبيقات الهواتف الذكية على وجه الخصوص، طرأت أسئلة على غرار مَن يملك البيانات، وأين تُخزَّن، ومَن يمكنه الوصول إليها واستخدامها، وما مدى تأمينها ضد الهجمات الإلكترونية عبر الإنترنت. ثمَّة الكثير من القضايا الأخلاقية والقانونية التي لن يسعنا تناولها في هذا الكتاب.

قد تصبح البيانات الصادرة من أحد أجهزة متابعة اللياقة البدنية متوافرةً لأحد أصحاب العمل، وتُستخدَم: إمَّا بصورة إيجابية، مثل تقديم علاواتٍ لمَن يستَوفون معايير معينة، وإمَّا بصورة سلبية، مثل تحديد أولئك الذين يُخفقون في تلبية المعايير المطلوبة، الأمر الذي قد يؤدي إلى تسريح العمالة غير المرغوب فيها. في سبتمبر ٢٠١٦، نشر فريقُ أبحاث مشترك، مُكوَّن من علماء من جامعة دارمشتات للتكنولوجيا في ألمانيا وجامعة بادوا في إيطاليا، نتائج دراسة أجرَوها على أمن بيانات أجهزة متابعة اللياقة البدنية. المقلق في الأمر أنه من بين ١٧ جهازًا خضعَ للاختبار، جميعها من مُصنِّعين مختلفين، لم يكن أيٌّ منها مؤمَّنًا بما يكفي لإيقاف التغييرات الجاري إدخالها على البيانات، وأربعة أجهزة فقط هي التي اتخذت إجراءاتٍ للحفاظ على موثوقية البيانات، وتمكَّن أعضاءُ الفريق من تجاوزها جميعًا.

في سبتمبر ٢٠١٦، بعد دورة الألعاب الأولمبية في ريو دي جانيرو، والتي تقرَّر حظر معظم الرياضيين الروس منها بعد تقارير موثَّقة عن برنامج لتعاطي المنشطات تديره الدولة، تعرَّضت السجلات الطبية لرياضيين كبار، من بينهم الشقيقتان ويليامز، وسيمون بايلز، وكريس فروم، للاختراق، وتمَّ الكشف عنها علنًا بواسطة مجموعة من قراصنة الإنترنت الروس على موقع FancyBears.net. لم تكشف هذه السجلات الطبية، التي كانت في حوزة الوكالة العالمية لمكافحة المنشطات (المعروفة ﺑ «وادا») على نظام إدارة البيانات الخاص بها الذي يُدعَى «أدامز» (نظام إدارة وتنظيم مكافحة المنشطات)، سوى استخدامات استثنائية لأغراض علاجية، وعليه فهي لم تُدِن أيًّا من الرياضيين الذين تعرَّضوا للتنمُّر الإلكتروني. ومن المرجَّح أن الاختراق الأولي لنظام إدارة وتنظيم مكافحة المنشطات تمَّ بواسطة حسابات رسائل البريد الإلكتروني للتصيُّد المُوجَّه. يُستخدَم هذا الأسلوب، الذي يبدو فيه أن رسالةً إلكترونية مُرسلة من مصدر كبير موثوق داخل المؤسسة، مثل مقدِّم خدمة الرعاية الصحية، إلى عضو أحدث من المؤسسة ذاتها، للحصول على نحو غير قانوني على معلوماتٍ حسَّاسة على غرار كلمات المرور وأرقام الحسابات عن طريق برنامج ضار يتم تنزيله.

أصبحَ تحصين قواعد البيانات الطبية الضخمة ضد الهجمات الإلكترونية، وما يترتَّب عليه من ضمان خصوصية المرضى، هاجسًا متناميًا. يجوز قانونًا بيعُ البيانات الطبية الشخصية المُجهَّلة، ولكن من الممكن في بعض الأحيان تحديد هُويَّات المرضى. في ممارسة قيمة تهدف إلى الكشف عن الثغرات الأمنية في البيانات التي من المفترض أن تكون آمنة، تمكَّنت عالمتان من مختبر هارفارد لخصوصية البيانات، هما لاتانيا سويني وجي سو يو، باستخدام بياناتٍ طبية «مُشفَّرة» (أي إنها مختلطة ومشوَّشة حتى لا يمكن قراءتها بسهولة، انظر الفصل السابع)، متاحة بصفة قانونية، ومنشأها كوريا الجنوبية، من فك تشفير معرِّفاتٍ فريدة في السجلات، وتحديد هُويات المرضى من خلال مقارنتها بالسجلات العامة.

تُعد السجلات الطبية بالغة القيمة لدى المجرمين الإلكترونيين. عام ٢٠١٥، أعلنت شركة أنثيم للتأمين الصحي أن قواعد بياناتها قد تعرَّضت للاختراق، ما أثَّر على بيانات أكثر من ٧٠ مليون شخص. تعرَّضت بياناتٌ مهمة لتحديد هُويات الأشخاص، مثل الاسم، والعنوان، ورقم التأمين الاجتماعي، للاختراق على يد ديب باندا، وهو فريق صيني من المخترقين الإلكترونيين، باستخدام كلمات مرور مسروقة للوصول إلى النظام وتحميل برنامج ضار من نوع حصان طروادة. الخطير في الأمر أن أرقام التأمين الاجتماعي، أحد المعرِّفات الفريدة من نوعها في الولايات المتحدة الأمريكية، لم تكن مُشفَّرة، الأمر الذي ترك مجالًا واسعًا لاحتمالية سرقة الهُويات. تبدأ الكثير من الاختراقات الأمنية بأخطاء بشرية: مثل الانشغال وعدم ملاحظة التغيُّرات الطفيفة في محدِّدات مواقع الويب «يو آر إل»، وفقدان أجهزة على غرار محركات الأقراص المحمولة أو سرقتها، أو حتى في بعض الأحيان إحلالها بأخرى تحتوي على برامج ضارة تُحمَّل على الفور بمجرد أن يضع موظف غير مرتاب الجهاز في منفذ «يو إس بي». ويكون كذلك الموظِّفون المستاءون، وأخطاء الموظِّفين غير المقصودة، هي المتهم الرئيسي فيما يقع من تسريباتٍ للبيانات لا حصرَ لها.

بدأت التحفيزاتُ الجديدة لاستخدام البيانات الضخمة في مجال إدارة الرعاية الصحية تُطلَق بمعدَّل متزايد من قِبَل مؤسساتٍ ذات شهرة عالمية على غرار مجموعة مايو كلينيك، ومجموعة جونز هوبكنز الطبية في الولايات المتحدة الأمريكية، وهيئة الخدمات الصحية الوطنية في المملكة المتحدة، ومستشفى جامعة كليرمون فيران في فرنسا. منحت الأنظمة المستندة إلى الحوسبة السحابية المستخدمين المُصرَّح لهم بإمكانية الوصول إلى البيانات من أي مكان في العالم. وإذا ذكرنا مثالًا واحدًا على ذلك، فسيكون خطط هيئة الخدمات الصحية الوطنية لإتاحة سجلات المرضى عبر الهواتف المحمولة بحلول عام ٢٠١٨. وكان من شأن هذه التطورات أن تتسبَّب، لا محالة، في المزيد من الهجمات على البيانات التي تستخدمها، مع إدراك ضرورة بذل جهود كبيرة لتطوير أساليب أمان فعَّالة لضمان سلامة هذه البيانات.