Основы молекулярной биологии. Часть 2: Молекулярные генетические механизмы - А.Н. Огурцов 2011

Геномика и протеомика
Определение функций новых генов и белков

Использование методов рекомбинантных ДНК позволило исследователям определить огромное количество как фрагментов ДНК, так и полных геномов человека и некоторых модельных организмов. Этот колоссальный объём информации, который стремительно растет каждый год, хранится, прежде всего, в двух базах данных:

1) GenBank в Национальном институте здоровья, Мэриленд, США (National Institute of Health, Bethesda, Maryland, USA) http://www.ncbi.nih.gov/Genbank/index.html

2) EMBL Sequence Data Base в Европейской молекулярной биологической лаборатории в Гейдельберге, Германия (European Molecular Biology Laboratory, Heidelberg, Germany) http://www.embl-hcidelberg.de/

Эти базы данных постоянно пополняются новыми секвенированными геномами и обеспечивают доступ всем исследователям через Интернет. Исследователи используют эти базы данных для проведения исследований, например, по следующим направлениям:

1) определение функций новых генов и белков по уже исследованным,

2) сравнительный анализ геномов,

3) идентификация генов в геномных фрагментах ДНК,

4) определение размера геномов,

5) разработка микроматриц ДНК,

6) кластерный анализ множественной экспрессии генов.

Белки со сходными функциями часто содержат подобные аминокислотные последовательности, которые соответствуют функциональным доменам в трёхмерной структуре белка. Сравнивая аминокислотную последовательность, которую кодирует обнаруженный новый клонированный ген с последовательностью аминокислот в белках с известными функциями, исследователь может по обнаруженным сходным участкам предсказать функции нового белка.

Вследствие вырожденности генетического кода (одна и та же аминокислота кодируется несколькими кодонами), родственные белки безусловно демонстрируют намного большую схожесть в аминокислотных последовательностях, чем нуклеотидные последовательности генов, которые их кодируют.

Одна из компьютерных программ, которая используется для такого сравнения, называется BLAST (Basic Local Alignment Search Tool). Алгоритм программы BLAST разбивает аминокислотную последовательность нового белка (которую называют искомая последовательность (query sequence)) на более короткие сегменты и затем ищет в базе данных аналоги среди имеющихся последовательностей. Программа сравнения присваивает высший коэффициент тождественно совпавшим последовательностям и меньшие коэффициенты совпадению по другим параметрам таким, как гидрофобность, полярность, знак заряда аминокислот и т. д.

Когда обнаружен аналог для данного сегмента, программа подробно сравнивает близлежащие участки с тем, чтобы расширить участок подобия. После окончания поиска программа выдает список возможных аналогов искомому белку, ранжируя элементы списка по параметру Е.

Параметр Е (E-value, expectation value) определяет степень несовпадения между двумя белковыми последовательностями. Чем меньше Е-значение, тем более подобны две последовательности. При значении Е меньше чем 10-3 обычно считается, что два белка имеют общего предка.

Для иллюстрации действенности такого подхода рассмотрим ген человека NF1. Мутации в этом гене приводят к наследственной болезни нейрофиброматоз-1, при которой образуются множественные опухоли в периферической нервной системе, проявляясь в виде бугров на коже (синдром слоновьей болезни). После выделения и секвенирования, клона кДНК гена NF1, было проведено сравнение полученной аминокислотной последовательности белка NF1 с другими белковыми последовательностями в GenBank. Оказалось, что один из участков белка NF1 во многом аналогичен фрагменту дрожжевого белка Irа (рисунок 112).

Рисунок 112 - Сравнение участков белка NF1 человека и белка Irа дрожжей S. cerevisiae, записанных однобуквенным кодом

На рисунке 112 тождественные и химически подобные пары аминокислот обозначены серыми прямоугольниками и точками, соответственно. Из предыдущих исследований было известно, что белок Irа является белком-активатором ГТФазной активности (GTPase-accelerating protein, GAP), который модулирует ГТФазную активность мономерного G-белка Ras. Белки Irа и Ras контролируют клеточное деление и дифференцировку в ответ на сигналы от соседних клеток.

Экспериментальные исследования функционирования нормальных белков NF1, проведенные с использованием экспрессии клонированных исходных (диких) генов, показали, что эти белки действительно регулируют активность белков Ras, на что и указывало гомологическое сходство с Irа. Таким образом, у больных нейрофіброматозом экспрессия мутантного белка NF1 в клетках периферической нервной системы приводит к нарушениям в клеточном делении и формированию опухолей, характерных для этого заболевания.

Даже в том случае, когда не удается обнаружить существенного подобия с уже известными белками, алгоритм BLAST позволяет идентифицировать короткие, функционально важные аминокислотные последовательности - повторы или мотивы - которые встречаются у многих белков. Для поиска таких мотивов структура данного белка сравнивается с базой данных структур известных мотивов. Некоторые из наиболее часто встречающихся мотивов перечислены в таблице 6.