فهم الجين والجينوم | علم الجينوم: مقدمة قصيرة جدًّا

تحديد تسلسل الحمض النووي بالتشظية

لا يمكن تحديد تسلسل الجينوم (على الأقل حتى الآن) بالبدء من أحد طرفَي الحمض النووي والمواصلة دون توقف حتى الوصول إلى الطرف الآخر. فكل سلسلة من النيوكليوتيدات — أي كل قراءة — يُنتجها جهاز تحديد تسلسل الحمض النووي لا تمثل عادةً إلا نتفةً بالغة الصغر من الجينوم المستهدَف. علاوةً على ذلك، فالعيوب الكامنة في طبيعة الطرق المستخدَمة للتمييز بين قواعد الأدينين، والسايتوسين، والجوانين، والثايمين في الحمض النووي، تُحتِّم التحري مرارًا من موضع كل نيوكليوتيدة في الجينوم من أجل إعطاء تسلسل موثوق فيه. ومن منطلَق تلك الأسباب، استخدم علم الجينوم إجراءً يُعرف باسم تحديد تسلسل الجينوم بأكمله ﺑ «التشظية» Shotgun sequencing. وقد سُمي هكذا نسبةً إلى الانتشار العشوائي لشظايا الرصاص الذي يقذف من سبطانة البندقية، واستُخدم لأول مرة في عام ١٩٨١ لتحديد تسلسل جينوم فيروس تبرقش القرنبيط الذي يبلغ طوله حوالَي ٨ آلاف زوج قاعدي. ومع أنَّ تلك الطريقة أثبتت أنها مناسبة على نحوٍ مثالي لمهمة تحديد تسلسل الجينومات الصغيرة في بدائيات النواة والميتوكوندريا والبلاستيدات الخضراء، فإنها اعتُبرت في البداية غير مناسبة لدراسة الجينومات الأكبر حجمًا والأكثر تعقيدًا في حقيقيات النواة. ولكن ثبَت أنَّ ذلك غير صحيح، كما هو موضح بالمثال في التسابق على تحديد تسلسل الجينوم البشري (انظر الفصل الرابع). فهذه الطريقة ظلَّت فعالة على مر فترة زمنية طويلة من حيث تحقيق الموازنة بين الكفاءة والدقة.

تبدأ طريقة تحديد التسلسل بالتشظية بعزل الحمض النووي الخاص بالجينوم، ثم قصه عشوائيًّا، واستخلاص مجموعة من القِطع المتساوية في الحجم. وعادةً ما تُضاف القِطع بعد ذلك ككلٍّ داخل بلازميدات حلقية (أي: «تُستنسَخ») لبناء «مكتبة» جينومية. ومن هذه المجموعة الكبيرة من البلازميدات، يقع الاختيار على بعض القِطع المستنسَخة عشوائيًّا، ويُحدَّد تسلسل نهايات قطع الحمض النووي المُضافة. تجدر الإشارة إلى أنَّ الجيل الثاني من تقنيات تحديد التسلسل يستغني عن خطوة الاستنساخ؛ إذ يُحدَّد تسلسل قِطَع الحمض النووي المقصوصة عشوائيًّا عبر كمٍّ هائل من العمليات المتوازية باستخدام إحدى التقنيات الموضحة في الفصل الثاني. وبغضِّ النظر عن الطريقة المستخدَمة، تمثِّل كل قراءةٍ لتسلسل حمضٍ نووي لقطةً عشوائية لجزء صغير من الجينوم؛ وبذلك فعند الحصول على قراءاتٍ كافيةٍ ومقارنتها بعضها ببعض، يمكن «تجميع» تسلسل الجينوم الأصلي في الكمبيوتر (انظر الشكل ٣-١).

شكل ٣-١: مقارنة بين نهج «التشظية» والنهج «الهرمي» لتحديد تسلسل الجينوم وتجميعه.

يعتمد عدد التسلسلات اللازم توليدها على حجم الجينوم المراد تحديد تسلسله. ويمكن حساب هذا العدد سلفًا باستخدام الصيغة البسيطة التالية: N × L/G، حيث يمثل N عدد قراءات تسلسل الحمض النووي، فيما يمثل L متوسط طول القراءة، أما G فهو طول الجينوم المستهدَف. ويُمكن من هذه الصيغة معرفة مقدار التسلسلات الواجب تحديدها من أجل تحقيق المستوى المطلوب من عُمق «تغطية» الجينوم. تشير التغطية هنا إلى متوسط عدد مرات ظهور موضع نيوكليوتيدة معين في الجينوم ضمن مجموعة من التسلسلات التي حُصل عليها عشوائيًّا. وعند استخدام طريقة سانجر التقليدية لتحديد التسلسل، تكفي تغطية مقدارها حوالَي ثماني مرات لضمان أنَّ حوالَي ٩٧ في المائة من الجينوم سيُغطَّى بمحض الصدفة. ولأنَّ تقنيات الجيل الثاني من أنظمة تحديد التسلسل تُظهِر معدلات خطأ أعلى من معدلات طريقة سانجر، لا بد أن يكون عمق التسلسل أعلى إذا كان مطلوبًا الحصول على مستوى الجودة نفسه؛ (فعند استخدام نظام إلومينا مثلًا، يلزم الحصول على تغطية تتراوح بين ثلاثين وخمسين مرة لتجميع الجينوم من البداية).

تجميع الجينوم: مشكلات وحلول

في ظل وجود قدر كافٍ من التغطية، يمكن تجميع جينومات الفيروسات وكثير من بدائيات النواة بدقة وكفاءة باستخدام بيانات أولية مولَّدة من معظم أجهزة تحديد التسلسل الحديثة. ولكن تنشأ المشكلات عند مُصادفة حمض نووي متكرر (أي: عند تكرُّر تسلسلات محددة من حمض نووي في أكثر من جزء من الجينوم). تحتوي معظم الجينومات على تكرارات من نوعٍ ما، لكن كميتها الإجمالية تختلف اختلافًا كبيرًا داخل الخلايا البدائيات النواة والحقيقيات النواة وفيما بينهما، وكذلك يختلف حجم الوحدات المكررة. هذا ويشيع عن الجينومات النووية وجود تسلسلات متكررة فيها؛ فأكثر من ٥٠ في المائة من الجينوم البشري عبارة عن تسلسلات متكررة من أنواع مختلفة (انظر الفصل الرابع)، وتبلغ نسبة التسلسلات المتكررة في بعض الجينومات النووية في النباتات حوالي ٩٠ في المائة.

لماذا تمثل التسلسلات المتكررة من الحمض النووي أهمية؟ تكتشف خوارزميات تجميع الجينوم تداخلات بين قراءات التسلسلات الأولية ثم تجمِّعها لإنتاج «متجاورات»، أو مجموعات متجاورة من قطع الحمض النووي المتداخلة. يُقصد بالمتجاورة توافق قراءتين أو أكثر من قراءات تسلسل الحمض النووي. ومن حيث المبدأ، فعند الحصول على عدد كافٍ من القراءات، يُمكن تجميع ولو حتى جينوم نووي كبير للغاية بدقة إذا كان يحتوي على عدد قليل من التكرارات أو يخلو منها؛ عندئذٍ ستكون بعض المتجاورات الفردية مكافئة لكروموسومات كاملة. غير أنَّ وجود التكرارات يعني أن الخوارزميات تواجه صعوبة في تحديد أيِّ منطقة من الجينوم هي التي استُخرج منها تسلسل متكرر معين. وإذا كان متوسط طول قراءة التسلسل أقصر من طول التسلسلات المتكررة في الجينوم، فإن توليد متجاورات كبيرة ودقيقة سيصبح صعبًا. وبذلك كلما زادت التسلسلات المتكررة، تفاقمت المشكلة.

وفي الواقع، تتألف معظم الجينومات النووية من مزيج من التسلسلات الفريدة وتكرارات قصيرة وطويلة من أنواع مختلفة، وعليه ابتكر الباحثون طرقًا لحل هذه المشكلة. إحدى تلك الطرق هي استخراج تسلسلات من كلا طرفَي قِطَع الحمض النووي المختارة عشوائيًّا (ارجع للشكل ٣-١)، وجعل الخوارزمية تتبع ما يُسمى «الأطراف المقترنة» والمسافة بينها (وهي مسافة معروفة لأن الحمض النووي الجينوم انتُقي حسب حجمه قبل بناء المكتبة الجينومية وتحديد التسلسل). هذا يحسِّن من فرص تثبيت بيانات التسلسل المأخوذة من كل قطعة حمض نووي تثبيتًا راسخًا بالجينوم. ومن الشائع أيضًا إجراء تحديد التسلسل مرارًا باستخدام حمض نووي مقصوص إلى أحجام مختلفة (وليكُن ألفَي و١٠ آلاف و٥٠ ألف زوج قاعدي مثلًا)؛ فهذا يُعزز فعالية بيانات الأطراف المقترنة أكثر وأكثر في التغلب على المشكلات المرتبطة بتسلسلات الحمض النووي المتكررة.

ولكن حتى عند اتخاذ تلك التدابير وغيرها، نادرًا ما تعتبر الجينومات النووية «كاملة» حقًّا بالمعنى الذي يفيد بتحديد تسلسل كل كروموسوم بوضوح من أحد الأطراف إلى الطرف الآخر. لذا كثيرًا ما يُستخدم مصطلح «المسوَّدة» في الإشارة إلى جينوم حُدِّد تسلسله وجُمِع بمستوًى من الجودة يُتيح تحديد معظم الجينات بثقة ودراستها. صحيح أنَّ التسلسل الناتج النهائي تظل فيه فجوات، لكنه يُعد كافيًا لمعظم التطبيقات البحثية.

وهكذا يُعد تسلسل الجينوم البشري مسوَّدة تسلسل. فبَعد تحديد تسلسل جينوم ذبابة الفاكهة بطريقة التشظية لإثبات المبدأ في عام ٢٠٠٠، نجح العالم الأمريكي ورائد الأعمال كريج فينتر في قيادة فريق من الباحثين، بتمويلٍ خاص، إلى تحديد تسلسل الجينوم البشري باستخدام النهج نفسه. وقد اختلفت منهجيتهم عن الاستراتيجية الهرمية المتدرجة «من الأعلى إلى الأسفل»، التي لجأ إليها مشروع الجينوم البشري المموَّل حكوميًّا. ففي هذه الحالة الثانية، استُنسخَت قِطع كبيرة من الحمض النووي يتراوح طولها بين ٥٠ و٢٠٠ ألف زوج قاعدي في نواقل خاصة تُسمى «كروموسومات بكتيرية اصطناعية». وبتحديد تسلسل نُتف صغيرة من أطراف الآلاف من هذه القطع المُستنسَخة «المكونة من قِطع مضافة كبيرة»، استُنتجَت خريطة فيزيائية منخفضة الدقة للكروموسومات قبل ظهور التقنيات العالية الإنتاجية لتحديد التسلسل. ثم اختيرت بعض القطع المستنسخة المفردة من قطع الكروموسومات البكتيرية الاصطناعية المستنسخة، وحُدِّد تسلسلها بطريقة التشظية على نطاق صغير حسب الضرورة لملء الفجوات المتبقية على طول كل كروموسوم (ارجع للشكل ٣-١).

تبدو هذه العملية شاقة، وهكذا كانت بالفعل! لكن من المهم أن ندرك أن بداية المشروع الممول حكوميًّا جاءت وقتما كانت طريقة سانجر ما تزال مُجهِدة ومكلِّفة؛ ولذلك كان تقليل الوقت المستغرَق في توليد بيانات التسلسل الأولية والمال المُنفَق على ذلك أمرًا ذا أهمية بالغة. وكذلك أتاح النهج القائم على الكروموسومات البكتيرية الاصطناعية لمختبراتٍ مختلفةٍ في أنحاء العالم بأن تعمل بالتوازي دون حدوث ازدواجية في جهودها (بتخصيص كرموسومات بكتيرية اصطناعية وكروموسومات مختلفة لفِرق مختلفة، على سبيل المثال). وهذا ليس ممكنًا عند استخدام نهج عشوائي تمامًا من نُهُج تحديد التسلسل بالتشظية. أما اليوم، فنادرًا ما تُستخدم قطع الكروموسومات البكتيرية الاصطناعية المستنسخة في مشروعات الجينوم القياسية (مع أن تلك القطع تمثِّل جانبًا مهمًّا من تحديد التسلسل «الميتاجينومي» للحمض النووي المأخوذ مباشرة من البيئة؛ انظر الفصل السادس). تمتاز تقنيات تحديد التسلسل المُنتِجة لقراءات طويلة، مثل تلك التي ابتكرتها شركتا باسبيو وأكسفورد نانوبور تكنولوجيز (ارجع للفصل الثاني)، بأنها أدوات ذات كفاءة وفعالية مُتزايدة في علاج مشكلة التسلسلات المتكررة في الحمض النووي، وتُستخَدم طرق الجيل الثاني «القياسية»، مثل نظام إلومينا، بأساليب جديدة مبدعة لتحسين جودة تجميعات الجينوم.

ويتضمن أحد النُّهج، الذي طوَّرته شركةٌ اسمها «١٠ إكس جينوميكس»، استخدام جهاز قائم على موائع دقيقة لتقسيم أجزاءٍ كبيرةٍ من الجينوم إلى «كُريَّات هلامية» صغيرة. يُضخَّم الحمض النووي الموجود في كل كُريَّة، ثم يوسم ﺑ «باركود» فريد، ويحدد تسلسله على أحد أجهزة إلومينا. فإنتاج قراءاتِ تسلسلاتٍ موسومة بباركود يُحسِّن عملية تجميع الجينوم تحسينًا كبيرًا، وذلك بتقديم معلوماتٍ كروموسوميةٍ طويلة المدى؛ إذ تُستمد القراءات التي تحمل الباركود نفسه من الكُريَّة الهلامية نفسها ومن قطعة الحمض النووي المادية نفسها. ومن ثَم، يمكن ربطها بالمنطقة الجينومية نفسها بثقة. واللافت أنَّ هذا النهج قد استُخدم مؤخرًا لإنتاج سبع تجميعات لجينومات بشرية تتسم بجودة عالية وتكلفة منخفضة، وتبدأ بكُتل ضئيلة من الحمض النووي يصل حجمها إلى نانوجرام واحد.

العثور على الجينات من خلال الترانسكريبتومات

في الثمانينيات والتسعينيات من القرن العشرين، حينما كانت عملية تحديد تسلسل الجينوم ما تزال في مرحلتها الأولى، ابتُكرَت تقنيات من أجل تسريع عملية اكتشاف الجينات في البشر. كانت الفكرة هي استهداف مناطق الجينوم التي تُنسخ إلى الحمض النووي الريبوزي فقط دون سواها؛ وبذلك يُسلَّط التركيز مباشرةً على المناطق المُشفِّرة للبروتينات، وتُتجنَّب مشكلة الاضطرار إلى توليد كميات ضخمة من الحمض النووي الجينومي غير المشفِّر (وغربلتها) بحثًا عن جينات. تتضمن التقنية استخدام الحمض النووي الريبوزي كقالبٍ لإنتاج ما يُسمَّى بالحمض النووي المكمِّل. وتُجرى هذه الخطوة عن طريق إنزيم النسخ العكسي، وهو إنزيم من إنزيمات تخليق الحمض النووي يوجد بطبيعته في الفيروسات التي تحتوي جينوماتها على الحمض النووي الريبوزي. ويُعد النسخ العكسي الذي يُحوَّل فيه الحمض النووي الريبوزي إلى حمض نووي عمليةً ضرورية ومفيدة؛ إذ لا تتوفر طريقة سهلة لتحديد تسلسل جزيئات الحمض النووي الريبوزي المرسال مباشرةً (علمًا بأنَّ تقنية ووز لفهرسة الحمض النووي الريبوزي لم تكن قابلةً للتطبيق إلا على جزيئات معينة وفيرة جدًّا من الحمض النووي الريبوزي، وهُجِر استخدامها حينما ظهرت تقنية سانجر لتحديد تسلسل الحمض النووي)، وعادةً ما يكون الحمض النووي أكثر استقرارًا بكثيرٍ من الحمض النووي الريبوزي عند إجراء التجارب المختبَرية عليهما.

وفور تخليق جزيئات الحمض النووي المكمِّل، يمكن استنساخها لتكوِّن بلازميدات، ونشرها في بكتيريا إشريكية قولونية، وتحديد تسلسلها بسهولة. ما يميز هذا النهجَ هو أن جزيئات الحمض النووي المكمِّل خالية من الإنترونات التي تنفصل بسهولة عن جزيئات الحمض النووي الريبوزي المرسال في الخلية قبل إجراء النسخ العكسي في أنبوب الاختبار. ومن ثَم فإن «الفائدة التي تعود من ذلك» عظيمة؛ إذ لا تحتوي جزيئات الحمض النووي الريبوزي المكمِّل حينها إلا على الإكسونات المُشفِّرة للبروتينات، وذلك بغضِّ النظر عن حجم الإنترونات في الجينات نفسها ووفرتها. أشير إلى القراءات المفردة الناتجة من تحديد تسلسل الحمض النووي المكمِّل باسم التسلسلات الواسمة المُعبَّر عنها، وأصبح النهج منذئذٍ معروفًا باسم تحديد التسلسلات الواسمة المُعبَّر عنها.

ومع أنَّ تقنية تحديد التسلسلات الواسمة المُعبَّر عنها والمنتمية إلى الحمض النووي المكمل طُبِّقت في البداية في مجالات بحثية في الطب الحيوي، صارت من أفضل التقنيات التي يعتمد عليها الباحثون العاملون في جميع مجالات علوم الحياة. وهي مفيدة بالأخص في دراسة التعبير الجيني في الكائنات المتعددة الخلايا. إذ يمكن استخراج عينات الحمض النووي الريبوزي من أنسجة مختلفة وتحويلها إلى جزيئات حمض نووي مكمِّل لتحديد تسلسلها، ويمكن مقارنة نِسَب وفرة جزيئات الحمض النووي المكمِّل (التي يُستمَد كلٌّ منها من جزء منسوخ من حمض نووي مرسال) في مجموعات البيانات المختلفة. ويمكن لمثل هذا النهج أن يُسفِر عن فهم عميق مهم فيما يخص الجينات والبروتينات التي تكون نشطة عند أوقات مختلفة داخل أجزاء مختلفة من الكائن الحي. وكذلك فإنَّ نهج تحديد التسلسلات الواسمة المُعبَّر عنها أصبح بديلًا شائعًا وميسور التكلفة لعملية تحديد تسلسل الجينوم في مجالات متنوعة من علم الأحياء. وصار تحديد تسلسل بضعة آلاف من القطع المستنسَخة المُختارة عشوائيًّا من مكتبةٍ تقليدية للحمض النووي المكمِّل كافيًا لإلقاء نظرة خاطفة على مجموعة الجينات في كائن حي مُكتشَف حديثًا دون تحمُّل النفقات والتعقيدات الملازِمة لعملية التعامل مع الجينومات.

حتى منتصف العقد الأول من القرن الحادي والعشرين، كانت التسلسلات الواسمة المُعبَّر عنها تُحدَّد أساسًا باستخدام تقنية سانجر التقليدية، لكنها أيضًا قد تطورت تجاوبًا مع تلك التقنيات الحديثة المستخدَمة في تحليل الحمض النووي. وقد أُحِل محلَّ هذا النهج الآن نهجٌ آخر يُطلَق عليه تحديد تسلسل الحمض النووي الريبوزي، وهي تسمية في غير محلها؛ لأنَّ هذا النهج، مثله مثل نهج تحديد التسلسلات الواسمة المعبَّر عنها، يعتمد على تحويل الحمض النووي الريبوزي إلى حمض نووي مكمِّل قبل تحديد التسلسل. الفرق الرئيسي بين النهج التقليدي لتحديد التسلسلات الواسمة المُعبَّر عنها ونهج تحديد تسلسل الحمض النووي الريبوزي، هو أن ذلك الأخير يستخدم أنظمة الجيل الثاني من تقنيات تحديد التسلسل؛ وبذلك يستطيع توليد بيانات أكثر بكثير في تجربة معينة. وباستخدام إحدى الوسائل التكنولوجية مثل إلومينا، من الممكن اكتشاف نُسخ حمض نووي ريبوزي مرسال تُكافئ نسبة تتراوح بين ٨٠ و٩٠ في المائة من الجينات الموجودة في جينوم كائن حي، حتى تلك التي عُبِّر عنها عند مستويات منخفضة جدًّا في الوقت الذي استُخرج فيه الحمض النووي الريبوزي. من الممكن أيضًا أن تُحدد، في آنٍ واحد، الاختلافات في مستوى التعبير عن آلاف الجينات في أنسجةٍ مختلفةٍ من كائنٍ حي متعدد الخلايا، أو بين مزارع خلايا نمَت في ظروفٍ بيئيةٍ مختلفة، على سبيل المثال. يشير مصطلح «علم الترانسكريبتوم» (الترانسكريبتوميكس) إلى دراسة الترانسكريبتوم (أي: المجموعة الكاملة من جزيئات الحمض النووي الريبوزي الموجودة في خلية أو مجموعة خلايا).

شكل ٣-٢: التضفير البديل.

أصبح تحديد تسلسل الحمض النووي الريبوزي أداة لا غنى عنها تُلازم عملية تحديد تسلسل الجينوم، وهذا يُسرِّع بشدة من وتيرة عملية اكتشاف الجينات في الجينومات بجميع أشكالها وأحجامها. وقد اتضح أنَّ التنبؤ بالحدود بين الإنترونات والإكسونات أكثر تعقيدًا من مجرد محاذاة تسلسلات الحمض النووي المكمِّل والحمض النووي الجينومي. والسبب الأكبر وراء ذلك هو ظاهرة التضفير البديل، التي تحدث حينما يُنتِج نفس الجين أكثر من نوعٍ واحد من نُسخ الحمض النووي الريبوزي المرسال (انظر الشكل ٣-٢). ففي ظل ظروف مختلفة أو في أنسجة مختلفة، يمكن لجين واحد أن يُنتِج عشرات البروتينات المختلفة في وظائفها ﺑ «الخلط والمطابقة» بين الإكسونات. نستنتج الآن، باستخدام تحديد تسلسل الحمض النووي الريبوزي، أن التضفير البديل سمةٌ في جميع الخلايا الحقيقية النواة، بدءًا من الميكروبات الوحيدة الخلية وصولًا إلى البشر.

ثبَت أيضًا أن تحديد تسلسل الحمض النووي الريبوزي وسيلة شديدة الفعالية لتمييز الجينات الصغيرة في الحمض النووي الريبوزي، مثل تلك الجينات التي تُشفِّر بحر جزيئات الحمض النووي الريبوزي الدقيقة التي أصبحت تُعَد ضوابط تنظيمية مُهمة في عملية التعبير عن الجينات المشفِّرة للبروتينات. ولأنَّ التسلسلات الصغيرة من الجينات في الحمض النووي الريبوزي كثيرًا ما تختلف بشدة من نوع إلى آخر، قد يستعصي العثور عليها باستخدام عمليات البحث العادية عن التشابهات الخاصة بالتسلسلات. وفي هذه الحالة، يبدأ الباحثون بانتقاء جزء من الحمض النووي الريبوزي ذي نطاق حجم معين، على أن يكون أصغر بكثير من جزيئات الحمض النووي الريبوزي المرسال المُشفِّرة للبروتين. ثم يُحوَّل الجزء الصغير من الحمض النووي الريبوزي إلى حمض نووي مكمِّل كالمعتاد، ويُحدَّد تسلسله تحديدًا عميقًا باستخدام تقنية مناسبة من تقنيات الجيل الثاني. وبالنظر إلى الوفرة النسبية للنُّسخ الصغيرة من الحمض النووي الريبوزي والمواضع التي رُبطَت بها على الجينوم المُجمَّع، فمن الممكن أيضًا ربط جزيئات الحمض النووي الريبوزي الصغيرة بالجينات المحددة المُشفِّرة للبروتين التي تنظِّم عملية التعبير عنها.

أين توجد الجينات وما دورها؟

يوجد في صميم علم الجينوم الحديث برنامج كمبيوتر يُسمَّى «بلاست» (بالإنجليزية BLAST التي تمثل الأحرُف الأولى من الكلمات التالية: Basic Local Alignment Search Tool التي تعني أداة البحث عن مناطق محاذاة موضعية أساسية). وفي هذا البرنامج، تُستخدم تسلسلات جزيئية للبحث عن معلومات في قاعدة بيانات تحتوي على تسلسلات جينية مأخوذة من كائنات حية أخرى من أجل تحديد مناطق التشابه. إذ تبحث خوارزمية «بلاست» عن مناطق المحاذاة الموضعية بين التسلسل المُراد مقارنته وتسلسل واحد أو أكثر في قاعدة البيانات. ثم تُنشأ قائمة ﺑ «النتائج المشابهة»، ويُخصص لكل نتيجة من النتائج مقياسٌ لدلالتها الإحصائية يُسمَّى قيمة «التوقع». وبإيجاز، تصف قيمة التوقع عدد النتائج المشابهة التي يُتوقَّع رؤيتها بمحض الصدفة عند البحث في قاعدة بيانات بحجم معين. وكلما كانت قيمة التوقع الخاصة بنتيجة معينة من نتائج «بلاست» أكبر، زادت «دلالة» التطابق، وصار الباحث أكثر يقينًا من أنه قد ميز جينًا حقيقيًّا. ويمكن إجراء عمليات البحث في برنامج «بلاست» باستخدام تسلسلات الحمض النووي بصفتها تسلسلات يُراد مقارنتها بتسلسلات أخرى (وهي خطوة ضرورية عند البحث عن جينات الحمض النووي الريبوزي غير المشفِّر) أو تسلسلات الأحماض الأمينية في البروتينات؛ ويُعَد هذا الاستخدام الثاني أكثر شيوعًا في التحليلات التي تُجرى على نطاق الجينومات، وأحد أسباب ذلك أنه أقدَر على كشف التسلسلات المتشابهة على مدى مسافات تطورية أكبر.

يمكن أيضًا العثور على الجينات باستخدام طرُق تُسمَّى «من البداية» Ab Initio. وفي هذه الحالة، يُستخدم برنامج للتعرف على خصائص الجينات الموجودة في الجينوم محل الاهتمام مثل تركيب النيوكليوتيدات عند الحدود بين الإنترونات والإكسونات. وقبل العثور على الجينات، يتلقى البرنامج «تدريبًا» على مجموعة منتقاة بعناية من الجينات المعروفة ونُسخ جزيئات الحمض النووي الريبوزي المرسال التي تحويها، وحالما «يتعلم» الشكل الذي عادةً ما تتخذه جينات الكائن الحي، يمكن استخدام البرنامج لتحديد جميع امتدادات تسلسل الحمض النووي التي تحمل تلك السمات في الجينوم، بغضِّ النظر عما إذا كانت تلك التسلسلات مشابهة لجينات معروفة في كائنات حية أخرى أم لا. لكنَّ هذا النهج له عيوبه، وأبرزها حتمية توفُّر بعض بيانات تسلسلات جينية على الأقل بالفعل (وإلا فسيتعذر تدريب خوارزميات الكمبيوتر). وفي الواقع العملي، عادةً ما تتضمن عملية التنبؤ بالجينات تشغيل عدة أنواع مختلفة من برامج اكتشاف الجينات ومقارنة النتائج. وتُعتبر امتدادات التسلسلات التي يتوقَّع أن تكون جينات بناءً على عدة فئات من الأدلة؛ جيناتٍ حقيقية على الأرجح، خاصةً إذا وُجد دليل واضح على النسخ.

بعد التنبؤ بالتسلسلات الجينية تأتي الخطوة التالية، وهي تعيين الوظيفة. وتنبثق هذه الخطوة انبثاقًا طبيعيًّا، إلى حد ما، من الإجراءات القائمة على برنامج «بلاست» التي تُستخدم لتحديد الجينات في المقام الأول؛ فإذا كان تسلسلُ جينٍ أو بروتين معين من النوع «س» يُشبه بروتين وظيفته معروفة من النوع «ص»، يُحتمل عندئذٍ أن يكون له الوظيفة نفسها أو وظيفة أخرى مشابهة. وعادةً ما تُربَط نتائج «بلاست» بقواعد بيانات كبيرة تحتوي على عدة آلاف من تسلسلات بروتينات مختارة بعناية، بروتينات تأكَّدت وظيفتها «أو وظائفها» بالتجربة. وكثيرًا ما تُنسَب الوظائف إلى مناطق فرعيةٍ محدَّدةٍ من البروتين تُسمَّى نطاقات البروتين. فعلى سبيل المثال، تحتوي قاعدة بيانات «بفام» على حوالَي ١٧ ألف «عائلة» مختلفة من البروتينات، وتُعد بمثابة مرجعًا مهمًّا في مراحل توضيح تفاصيل الجينوم. كثيرًا ما تحتوي البروتينات على نطاقاتٍ متعددةٍ ذات وظائف فرعية مختلفة. فعلى سبيل المثال، تُعد عوامل النسخ بروتينات تؤدي أدوارًا مهمةً في تنظيم التعبير الجيني، وعادةً ما تحتوي على نطاقاتٍ مرتبطةٍ بالحمض النووي ونطاقات تفاعل البروتينات بعضها مع بعض، ويُمكن اكتشاف كلا النوعَين من النطاقات باستخدام برامج حاسوبية.

وعند تعيين وظائف جينات في جينوم حُدِّد تسلسله حديثًا، يصبح الهدف نَسْب وظيفة مُفترَضة إلى أكبر عدد ممكن من الجينات. وتتفاوت درجة الثقة المرتبطة بهذه الوظائف التي جرى تعيينها تفاوتًا شديدًا. ففي بعض الأحيان، يكون ممكنًا التنبؤ، بيقينٍ كبير، بأنَّ الجين «س» يُشفِّر بروتينًا معينًا مسئولًا عن تضاعف الحمض النووي. وفي أحيان كثيرة أخرى، يكون من المستحيل التنبؤ بهذه الدرجة من الدقة. فقد يُتنبأ بأنَّ أحد البروتينات ناقل للسكر (لأن تسلسل أحماضه الأمينية يتشابه مع تسلسل الأحماض الأمينية لدى ناقلات تتميز بها كائنات حية أخرى)، ولكن قد لا يكون نوع السكر الذي ينقله واضحًا على وجه الدقة. أو قد يُتنبأ بأنَّ بروتينًا ما يرتبط بأغشية خلوية (لأنه يحتوي على نطاقات يُفترَض أنها تمتد عبر الغشاء الخلوي)، لكن دون إمكانية فهم المزيد عن وظيفته. وكثيرًا ما يكون البروتين المتوقَّع بلا وظيفة واضحة على الإطلاق. وهذا شائع جدًّا بالأخص عند توضيح تفاصيل تسلسل جينوم كائن حي لا يُعرف له أقرباء. هذا ويتضمن الجينوم الموضَّحة تفاصيله بدقة معلومات عن مجموعة واسعة من العمليات البيولوجية المختلفة، بما في ذلك القدرات الأيضية المتوقعة (ويمكن الاستعانة بهذه المعلومات في استنتاج كيف يعيش الكائن الحي) والخصائص الخلوية، مثل القدرة على صنع سوط يتحرك به.

أين تؤدي البروتينات وظائفها؟

يتمثل جانب آخر من عملية توضيح تفاصيل تسلسل الجينوم في توقُّع المكان الذي تؤدي فيه جزيئات البروتين وظائفها. ويُمكن تحقيق ذلك لأن البروتينات تحتوي غالبًا على تسلسلات معينة من الأحماض الأمينية تعمل كأنها «طوابع بريدية» داخل الخلايا. ومن الأمثلة على ذلك أنَّ معظم (ولكن ليس كل) البروتينات التي تؤدي وظائفها في الميتوكوندريون تُشفَّر في الجينوم النووي وتُخلَّق في السيتوبلازم في الواقع، وتحتوي مثل هذه البروتينات على «بيبتيدة موجِّهة» مكوَّنة من خمسة عشر إلى ثلاثين حمضًا أمينيًّا على أحد الطرفين، بحيث تعمل على توجيه البروتينات نحو العضية. وتحتوي بروتينات البلاستيدات الخضراء المُشفَّرة بالجينات النووية على تسلسلات موجِّهة مشابهة. ومن ثَم، تُدرَّب الخوارزميات على فحص تسلسلات الأحماض الأمينية في البروتينات بحثًا عن وجود تلك العناصر الموجِّهة وعناصر أخرى من هذه النوعية، ويمكن استخدامها لتوقُّع أيِّ مجموعة من بين آلاف البروتينات هي التي يُرجَّح أنها تعمل في عضية معينة. ومن الأمثلة الأخرى النمط المميز المتمثل في تسلسل «كيديل» KDEL، ويُعَد هذا التسلسل المكون من أربعة أحماض أمينية هو السمة المميزة للبروتينات الموجودة داخل منطقة معينة من جهاز الغشاء الداخلي للخلايا الحقيقية النواة. ومع أنَّ هذه الأدوات ليست مثالية، يستخدمها الباحثون لتجميع قوائم ببروتينات ترتبط بمناطق منفصلة في الخلية. وبعدئذٍ يمكن استخدام هذه التنبؤات لصياغة فرضيات من أجل اختبارها داخل المختبرات.

ومن المجالات التجريبية المستخدَمة لتأكيد الموقع داخل الخلية مجال سريع التطور من مجالات «الأوميكس»، (أي: المجالات التي تحلل كميات هائلة من الجزيئات البيولوجية)، يُسمى علم البروتيوم (البروتيوميكس). وفي هذه الحالة، يُستخدم أحد إنزيمات قَطع البروتين، كإنزيم التريبسين مثلًا، لهضم عينة من البروتينات استُخلصَت من عضيةٍ مثل الميتوكوندريون. ثم يُمرَّر الخليط المُقطَّع خلال أداة تُسمى مطياف الكتلة. ونظرًا إلى خصوصية إنزيم التريبسين، الذي لا يقطع البروتينات إلَّا عند جزيئات معينة من الحمض النووي، تكون قِطَع البروتين بحجم محدَّد؛ ومن ثَم يمكن أن تكتشفها الأداة. ومن خلال مقارنة مخرجات التجارب بالبروتينات المتوقعة استنادًا إلى تسلسلات الجينوم، يمكن تأكيد أيٍّ من البروتينات يتموضع بالفعل في العضية المَعنية. وبوجه أعم، يُستخدم علم البروتيوم جنبًا إلى جنب مع علم الجينوم للتيقن من دقة توقعات الجينات القائمة على برامج حاسوبية؛ فالنتائج الإيجابية الزائفة لن تُنتِج بروتينات حقيقية.

إعادة تحديد تسلسل الجينوم

تُعَد مقارنة تسلسلات الحمض النووي بين فردين أو أكثر من النوع نفسه مصدرًا ثريًّا بالمعلومات لدراسة علم الأحياء الجزيئي والتطوري. ولكن حتى مع توافر أفضل الأدوات وألمع العقول، قد يكون التحدي المتمثل في تجميع جينوم من جديد (أي: من البداية) باهظ التكلفة إلى حد تعجيزي. ولحسن الحظ، تكون هذه الخطوة غير ضرورية في بعض الحالات. تتضمن عملية «إعادة تحديد تسلسل» الجينوم توليد بيانات أولية عن التسلسلات من الفرد أو السلالة محل الاهتمام و«ربط» القراءات بجينوم مُجمَّع سلفًا. يمكن إجراء إعادة تحديد التسلسل بطريقة موجَّهة (بالتركيز على الإكسونات فقط مثلًا) أو يمكن تطبيقها على الجينوم بأكمله. وعمومًا، كلما كانت جودة تجميع الجينوم المرجعي أكبر، أصبحت استراتيجية إعادة تحديد التسلسل أنفع. ومع أننا نُغفل ذلك كثيرًا، فإنَّ قدرتنا على «تحديد تسلسل» جينوم بشري في غضون أسبوع ومقابل ألف دولار لم تصبح ممكنة إلا بفضل جهود رسم خرائط الجينوم التي بُذلت في مشروع الجينوم البشري الأصلي المموَّل حكوميًّا، الذي بُنِي هو نفسه على مجهودات علماء الوراثة البشرية قبل عقود.

وفي هذا الصدد، يُستخدم نهج موجَّه يُطلق عليه «تحديد تسلسل الإكسوم كله» على نطاق واسع في أبحاث الأمراض البشرية. وقد يتضمَّن هذا النهج استخدام «مصفوفة دقيقة»، وهي قطعة صغيرة من الزجاج تُثبَّت عليها بصفةٍ دائمة جزيئاتٌ مفردة الشريط من الحمض النووي تُمثِّل مجموعة محدَّدة من الإكسونات. وتوجد مصفوفات تحتوي على أكثر من ١٠٠ ألف إكسون بشري متوفرة تجاريًّا، وتُستخدم في أغراض التشخيص. تُغمر المصفوفة الدقيقة بعينات الحمض النووي المأخوذة من المرضى، وتُجرَف المادة التي لم «تُهجَّن» مع الحمض النووي الموجود على المصفوفة (أي: لم تقترن قواعدها بقواعده)، ويُجمَّع الحمض النووي المتبقي ويُحدَّد تسلسله بتقنيات الجيل الثاني. خلاصة الأمر أنَّ تحديد تسلسل الإكسوم كله يسمح للباحثين بفحص مناطق تشفير البروتين في الجينوم بكفاءة بحثًا عن الطفرات المسببة للأمراض بجزءٍ صغيرٍ من تكاليف تحديد تسلسل الجينوم كله.

سرعان ما تُصبح إعادة تحديد تسلسل الجينوم بأكمله هي العملية النموذجية السائدة في مجال علم الجينوم البشري المقارن. فهي كافية للاكتشاف الدقيق للتشكُّلات المتعددة للنيوكليوتيدات المفردة (أي: الاختلافات في موضع نيوكليوتيدة واحدة في الجينوم لدى أفراد إحدى الجماعات). ويمكنها أيضًا، بدرجة أقل، أن تُحدد طفرات الإضافة والحذف القصيرة في الحمض النووي غير المتكرر، وكذلك الكشف عن الاختلافات في عدد النسخ بين الجينومات المستهدَفة والمرجعية. إذ يتزايد إدراك أهمية الاختلافات في عدد النسخ فيما يتعلق بالأمراض والبيولوجيا البشرية، وفي البيانات الجينومية تتجلى تلك الاختلافات في صورة اختلافات في عمق تغطية التسلسل التي حُصِل عليها لِجينٍ معين أو جزء معين من الحمض النووي. وتُعد المناطق الجينومية التي تُظهر زيادة أو نقصًا كبيرًا في عدد القراءات المفردة التي رُبطَت بالجينوم المرجعي، مؤشرًا دالًّا على التغييرات في عدد النسخ في الكائن الحي محل الدراسة (انظر الشكل ٣-٣).

شكل ٣-٣: اكتشاف الاختلاف في عدد النسخ باستخدام الجيل الثاني من تقنيات تحديد تسلسل الحمض النووي.

غير أنَّ نهج إعادة تحديد تسلسل الجينوم له عيوبه. فعلى سبيل المثال، يستحيل إلى حدٍّ كبير رؤية التمددات والانكماشات في التسلسلات المتكرِّرة بهذه المنهجية، وإذا كانت أطوال القراءات المفردة من تسلسل الحمض النووي أقصر بكثير من طول وحدة متكررة مفردة، فبيانات ربط القراءات بمواضعها على الجينوم وحدها لن تقدم أي معلومات قيِّمة عن التغيرات الموجودة في عدد الوحدات المتكررة من جينوم إلى آخر. وما يفاقم المشكلة أنَّ جودة الجينوم المرجعي ربما تتضرر في تلك المناطق بسبب وجود تكرارات.

وتُعَد الانقلابات نوعًا آخر من الاختلافات البنيوية التي يصعب اكتشافها باستخدام نهج عام من طرُق إعادة تحديد التسلسل. فقد يكون حجم هذه الانقلابات صغيرًا بقدرِ بضع عشرات من النيوكليوتيدات أو قد يتجاوز مليون زوج قاعدي، وتعتمد درجة الموثوقية التي يُمكن اكتشاف الانقلابات ذات الأطوال المختلفة بها في البيانات الجينومية على عوامل مثل طول قراءة التسلسل والأدوات الحوسبية المستخدَمة لربط القراءات بمواضعها في الجينوم. ولأنَّ الانقلابات قد تُخِل بطبيعة تسلسلات الجينات و/أو تؤثر في التعبير عن الجينات القريبة، تلقى اهتمامًا كبيرًا من الباحثين الذين يدرسون الأساس الوراثي للأمراض. ويتمثل أكبر انقلاب معروف لدى البشر في جزء من الحمض النووي طوله حوالَي ٤٫٥ ملايين زوج قاعدي على الكروموسوم ٨ يُعَد مقلوبًا (بالنسبة إلى الجينوم المرجعي) في نسبةٍ يُقدَّر أنها تتراوح بين ١٢ و٦٠ في المائة من سكان العالم، حسب العِرق. وبالرغم من عدم وضوح الآليات الجزيئية الأساسية الكامنة وراء هذا الانقلاب، فإنه مرتبط بالتهاب المفاصل الروماتويدي ومرض الذئبة الحمراء الذي يُعد من أمراض المناعة الذاتية.

ومن الأمثلة الأخرى التي دُرسَت جيدًا ما يُطلق عليه انقلاب أيسلندا، وهو جزء طوله حوالي ٩٠٠ ألف زوج قاعدي من الكروموسوم البشري ١٧ يُعَد مقلوبًا لدى حوالي ٢٠ في المائة من الأوروبيين. وقد أظهرت دراسة أُجريت عام ٢٠٠٥ أنَّ بعض السيدات الأيسلنديات المصابات بانقلاب الكروموسوم ١٧ قد زادت لديهن معدلات إعادة اتحاد الحمض النووي، ولأسباب مجهولة أنجبنَ عددًا أكبر من الأطفال. أمَّا الشكل «العادي» (أي: غير المقلوب) للكروموسوم ١٧، فيرتبط بالعديد من الاضطرابات العصبية التنكسية، بما فيها مرَضا الألزهايمر وباركنسون. ومن السمات المشتركة بين هذه الانقلابات وغيرها وجود تسلسلات متكررة عند نقاط توقفها، ومن الصعب ربط هذه التسلسلات بمواضعها على الجينوم المرجعي. هذا ويُعَد أحد الموضوعات التي تلقى اهتمامًا كبيرًا، ويُجرى عليها أبحاث عديدة في مجال المعلوماتية الحيوية ابتكار خوارزميات أفضل لاكتشاف الانقلابات الجينومية الكبيرة والصغيرة على حدٍّ سواء من بيانات التسلسل التي أنتجتها تقنيات الجيل الثاني، وتستمر مثل هذه الخوارزميات في التطور جنبًا إلى جنب مع نُهُج تحديد التسلسل التي تهدف إلى جمع معلومات طويلة المدى، مثل نهج شركة ١٠ إكس جينوميكس الذي ورد ذكره سابقًا. وكما سنرى في الفصل الرابع، فإن تسلسل الجينوم البشري ما زال «عملًا قيد التطوير» أمامه الكثير.