Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатики
Понятие «информация»
Генетическая информация

Теперь перейдем к генетической информации, носителями которой являются молекулы ДНК. Слова "ДНК", "гены", "наследственная информация" стали настолько привычными, что нередко воспринимаются как синонимы. В действительности это далеко не так.

Гигантская по длине молекула ДНК состоит из четырёх типов нуклеотидов, которые могут быть соединены в любой последовательности. Молекулы нуклеиновых кислот обладают свойством, которое Герман Мёллер (Hermann Joseph Muller) назвал аутокатализом.

Если в раствор, содержащий молекулы нуклеиновых кислот, внести в должном количестве все четыре нуклеотида, то при соблюдении некоторых дополнительных условий эти молекулы начнут пристраивать нуклеотиды вдоль своей цепи точно в той же последовательности, как и в них самих, а затем отделять от себя готовые копии. Процесс этот не зависит от того, какова последовательность нуклеотидов, составляющих исходные молекулы ДНК. Это может быть случайная последовательность, или строго чередующаяся, или любая иная - копии будут всегда похожи на оригинал, если не произойдёт мутации, то есть случайной замены, вставки или удаления одного или нескольких азотистых оснований.

Если ДНК состоит из случайной последовательности нуклеотидов, это далеко не ген, поскольку никакой наследственной информации она не содержит, хотя и может самовоспроизводиться. Информация возникает на отрезках молекулы ДНК лишь тогда, когда благодаря мутированию (или по иным причинам) там сложится такая последовательность нуклеотидов, которая сможет повлиять на химические процессы, протекающие в её окружении. Только тогда, выступая в роли "катализатора", ген сможет ускорить одни или притормозить другие процессы, изменяя тем самым свое химическое окружение.

Постепенно всё большие преимущества будут получать такие структуры ДНК, которые в непосредственном своём окружении могут увеличивать концентрацию нуклеотидов и других веществ, необходимых для их размножения.

Лишь когда этот процесс завершится и в "первичной" молекуле ДНК возникнут отрезки, каждый из которых стимулирует образование необходимых для удвоения ДНК соединений или угнетает синтез соединений, препятствующих их удвоению, можно считать, что в молекуле ДНК возникли гены, и что сама эта молекула стала носителем генетической информации.

Генетическая информация, следовательно, содержится в наборе генов, контролирующих синтез соединений, которые обеспечивают удвоение молекул ДНК в некоторых данных условиях.

Появление генов тесно связано с возникновением аппарата трансляции, а также с формированием оболочек или мембран, отделяющих от внешней среды ту область, где находятся молекулы ДНК. Это уже можно рассматривать как возникновение живых объектов, которые могут расти, размножаться и приспосабливаться к новым условиям благодаря генам, возникающим и изменяющимся в результате мутаций; они умирают, когда разрушаются содержащиеся в них гены или когда они не в состоянии приспособиться к внешним условиям. Изменяясь, гены влияют и на другие структуры организма, обеспечивая тем самым "заселение" все новых мест обитания, появление многоклеточных растений, грибов и животных, то есть эволюцию жизни на Земле. Как писал Г. Мёллер, в основе жизни лежит ген.

Таким образом, совокупность генов, или генетическая информация, регулирующая целенаправленную деятельность любой живой клетки, определяется не самими азотистыми основаниями ДНК, а последовательностью их расположения.

Различие между генетической информацией и молекулой ДНК позволяет также ввести понятие носителей генетической информации и выяснить отличие таких её носителей от информации как таковой. Поэтому-то мы и говорим, что генетическая информация записана в ДНК определённой последовательностью нуклеотидов. Именно эта информация, то есть запись последовательности тех событий, которые должны произойти, чтобы вновь возникающие клетки могли вырасти, а затем совершить деление, является самым важным компонентом живой клетки.

То, о чём писал Мёллер около 70 лет назад, можно сформулировать следующим образом:

Живое - это совокупность объектов, содержащих информационные структуры, обладающие свойствами аутокатализа и гетерокатализа, обеспечивающие размножение этих объектов в разнообразных условиях внешней среды.

Жизнь - это возникновение всё новых содержащих информацию объектов, материальные компоненты которых обеспечивают её воспроизведение во всё более разнообразных и сложных ситуациях. Очевидно, что чем сложнее эти ситуации, тем больше нужно информации, чтобы в соответствии с ней построить живой объект, способный в этих ситуациях существовать. В мире неживой Природы нет примеров информационных систем, в которых носители информации отличались бы качественно от остальных элементов системы.

Мы привыкли к словосочетанию "генетическая информация", забыли даже, что ввёл его в научный обиход физик Эрвин Шредингер (Erwin Schrödinger) в середине 40-х годов. В своей книге "Что такое жизнь с точки зрения физика?" он опирался на работу Н.В. Тимофеева-Ресовского, К.Г. Циммера и М. Дельбрюка "О природе генных мутаций и структуре гена", увидевшую свет в Германии в 1935 г. Это произошло вскоре после того, как Г. Мёллер, ученик Томаса Моргана (Thomas Hunt Morgan), впервые показал, что гены не только воспроизводят себя и изменяются (мутируют), но что можно повлиять на частоту их мутирования, например, повышением температуры или действием ионизирующих излучений.

В 1928 г. Мёллер в статье "Ген как основа жизни" показал, что именно гены (образования неизвестной тогда природы), способные к ауто- и гетерокатализу, положили начало феномену жизни на нашей планете. "Ясно, что, став на эту точку зрения, мы избегаем логических трудностей, связанных с происхождением современной протоплазмы, с её взаимодействием частей, действующих совместно в направлении продолжения роста и точного воспроизведения целого. Система эта образовалась, так же как и сложная макроскопическая форма высших растений и животных, ... постепенно, шаг за шагом, каждый из которых проверялся по мере того, как в первичных аутокаталитических генах мутация следовала за мутацией. В этом процессе преимущественно выживали, размножались и вновь мутировали лишь те гены, побочные продукты которых оказывались наиболее полезными для дальнейшего воспроизведения... Согласно этому взгляду, который, по-видимому, наилучшим образом выдерживает проверку исчерпывающим анализом, по крайней мере, значительная часть протоплазмы явилась вначале лишь побочным продуктом активности генного вещества; её функция... заключается лишь в питании генов; первичные же, свойственные всякой жизни, тайны скрыты глубже, в самом генном веществе... Мутабильного типа структуры в генном веществе несомненно претерпели в процессе эволюции глубокие изменения и подверглись усложнениям, а под их влиянием, конечно, эволюционировала и протоплазма, но другие структуры - те черты строения гена, которые ответственны за его первичное свойство аутокатализа - должны быть ещё и сейчас такими же, какими они были в незапамятные времена, когда зеленая тина ещё не окаймляла берегов морей". Всего через 20 с небольшим лет после этой публикации было установлено, что гены представляют собой отдельные участки молекулы ДНК, размножающиеся путём комплементарного пристраивания друг к другу четырёх видов нуклеотидов; гены мутируют, когда происходят ошибки в этом процессе; они управляют синтезом разного рода белков, составляющих протоплазму, переключаясь, время от времени, с аутокатализа (построения собственных копий - репликация) на гетерокатализ (построение инородных молекул - транскрипция и трансляция) путём синтеза РНК и, с её помощью, молекул белка. Сейчас всё это хорошо известные процессы.

Иногда проводят аналогии между свойствами живых клеток и, например, кристаллов? Рост и размножение кристаллов основаны на присоединении к исходной "затравке" всё новых, точно таких же молекул из раствора, но вероятность этого равновесного процесса зависит от температуры и концентрации раствора, то есть только от внешних параметров. "Преимущественные условия" нигде в кристалле не "запоминаются" и не "облегчают" кристаллам "самовоспроизведение".

Размножение вирусной частицы также зависит от условий окружающей среды. Но вирусы (подобно живым организмам) - это открытые системы, и они с большей эффективностью используют окружающую среду для выживания и размножения. Это касается, например, поиска клетки-хозяина и размножения в ней. Прикрепившись к поверхности живой клетки, вирус с помощью специального белкового устройства впрыскивает в неё свою молекулу ДНК или РНК, содержащую его гены. Гены вируса не только воспроизводят себя, используя синтезируемые зараженной клеткой молекулы, но также заставляют эту клетку создавать новые, не свойственные ей белковые молекулы, которые, окружая готовые генетические структуры новых вирусных частиц, создают белковую оболочку вируса, приспособленную для осуществления следующего цикла - заражения других клеток и размножения в них.

Все теории происхождения жизни неизбежно сталкиваются с вопросом: как возникла ДНК и та информация, которая записана в ней?

Молекулярная эволюция. Гиперциклы Эйгена. В 1971 г. Манфред Эйген (Manfred Eigen) сформулировал последовательную концепцию предбиологической молекулярной эволюции. Эйген распространил идеи дарвиновского отбора на популяции макромолекул в "первичном бульоне". Далее он показал, что кооперирование молекул в "гиперциклы" приводит к компартментализации в виде отдельных клеточных единиц.

Гиперцикл - это средство объединения самовоспроизводящихся единиц в новую устойчивую систему, способную к эволюции. Он построен из автокатализаторов, которые сочленены посредством циклического катализа, то есть посредством ещё одного автокатализа, наложенного на систему.

Теория гиперциклов является абиогенетической теорией происхождения жизни, а также её эволюции. Гиперциклы, которые сами по себе ещё чистая химия, уже обладают некоторыми признаками живого: круговорот веществ и энергии, воспроизведение информации с её наследованием, приспособляемость к изменяющимся условиям. Гиперциклы подвержены дарвиновскому естественному отбору, но не на уровне видов, а на уровне молекул, то есть это гипотеза о молекулярной эволюции, приведшей к созданию первой живой клетки, использующей генетический код для матричного синтеза белка.

Дарвиновский отбор, являющийся предпосылкой для возникновения гиперциклов, на молекулярном уровне может иметь место в системах, обладающих следующими "дарвиновскими" свойствами:

1. Метаболизм. Система должна быть далека от равновесия. Образование и разложение молекулярных видов должны быть независимы. Отбор должен действовать только на промежуточные состояния, которые образуются из высокоэнергетических предшественников и разрушаются в низкоэнергетические отходы. Система должна использовать освободившуюся энергию и вещества.

2. Самовоспроизведение. Система должна быть способна инструктировать (программировать) свой собственный синтез.

3. Мутабильность. Система должна быть способна мутировать. Мутабильностъ всегда сопутствует самовоспроизведению. Ошибки копирования — это основной источник новой информации.

Образование и усовершенствование эйгеновских гиперциклов в ходе эволюции привели к созданию аппарата трансляции. Образование вслед за этим клеточной мембраны завершило предбиологический период эволюции.

Гиперцикл соответствует циклу биохимических процессов, в которых белки, Pi, катализируют образование полинуклеотидов, а последние кодируют биосинтез белков (i = 1,2,...,n). Схема гиперцикла по Эйгену приведена на рисунке 38(a). Тонкие стрелки соответствуют катализу реакции полимеризации нуклеотидов, жирные - "кодированию" синтеза белков. Простейший гиперцикл содержит всего один белок-репликазу (полимеразу) и один полинуклеотид (i = 1); схема его представлена на рисунке 38(6).

Современный биосинтез белка является гиперциклом, причем достаточно сложным (рисунок 38(a)). Он содержит белок полимеразу, мРНК, набор адаптеров, набор тРНК и рибосому, то есть количество белков и нуклеиновых кислот в нём достаточно велико. Оценим количество информации, содержащейся в таком гиперцикле.

Рисунок 38 - Схемы гиперцикла: а - сложного; б - простейшего

В белке, состоящем из п аминокислот, полное количество информации равно: 7 = log220n. При п = 200 I = 860 бит. Величина 7 соответствует количеству ценной информации в случае, когда в белке все остатки фиксированы (то есть находятся на данном месте), как, например, в гистонах.

В большинстве функциональных белков не все остатки должны быть фиксированы. Так, замена многих остатков на другие, но аналогичные, например одинаковой гидрофобности (консервативные мутации), не ведёт к потере функции. В связи с этим количество ценной информации, обеспечивающей функцию белка-фермента, в общем случае меньше. Так, например, количество ценной информации в белке бактериородопсин составляет 130 бит. Того же порядка должна быть ценная информация в полинуклеотидах.

Для грубой оценки примем, что количество ценной информации в среднем белке равно 100 бит.

Количество ценной информации в системе, состоящей из т разных белков, соответственно, в т раз больше. В современном гиперцикле биосинтеза белков задействовано более ста полимеров. Поэтому полное количество ценной информации всей системы составляет приблизительно 100-100 = 10000 бит.

Вероятность спонтанного и одномоментного возникновения всей системы равна W ≈ 2-10000≈ 10-3300. Эта величина абсурдно малая.

Дело в том, что любые физические величины (длина, масса, интервал времени, число частиц) в нашем мире не являются бесконечно большими или бесконечно малыми.

Например, считается, что наша Вселенная появилась около 14 млрд. лет назад, то есть со времени Большого взрыва прошло "всего" порядка 4,4∙1017 секунд. Даже если за масштаб времени взять период тепловых колебания атомов в кристаллической решетке (порядка 10-12 секунд), то за время существования Вселенной произошло "только" ~1030 колебаний. Кстати, возраст Земли (равно как и Солнечной системы) оценивается в 4,5 млрд. лет (1,4∙1017 с). Жизнь на Земле зародилась ещё в архее - примерно 3,5 млрд. лет назад (1017с).

Ещё один пример, масса наблюдаемой части Вселенной оценивается в 8∙1052кг (~1050 тонн), что соответствует 12,8∙1077 масс атомов углерода (или ~1079 масс атомов водорода).

Считается, что все "разумные" значения физических величин выражаются числами от 10-100 до 10+100. В связи с этим американским математиком Эдвардом Каснером (Edward Kasner) в 1938 году было введено новое понятие - "гугол" (googol) - равное 10+100, такое, что никакая физическая величина не может иметь значение превышающее гугол. А само слово гугол, как название для числа со ста нулями, придумал племянник Эдварда Каснера, девятилетний Милтон Сиротта (Milton Sirotta), во время прогулки с дядей и обсуждения больших чисел.

Соответственно, "обратным гуглом" называют число 10-100. Обратный гугол, хотя формально является конечной величиной, реально должен рассматриваться как бесконечно малая величина. В частности, вопрос: как ведёт себя функция внутри интервала порядка обратный гугол, лишён смысла. Функцию на таком интервале следует заменить числом (средним по интервалу), поскольку более детальное её поведение принципиально не наблюдаемо.

Кстати, название Интернет-поисковика Google было придумано на основе слова "гугол".

Таким образом, самопроизвольное возникновение аппарата биосинтеза в его современном виде абсолютно невозможно. Однако современный вид гиперцикла биосинтеза появился в результате около 3 млрд. лет эволюции, в ходе которой исходный простейший гиперцикл совершенствовался и усложнялся. При этом, если на первых этапах происходило химическое копирование молекул, то на последнем этапе эволюции аппарата биосинтеза произошёл выбор единого кода копирования - того, что мы сегодня наблюдаем как единый генетический код на Земле. Выбор единого кода имел место уже после образования (и конкуренции) нескольких различных популяций гиперциклов с различными вариантами кода. Выбранный таким способом вариант постепенно вытеснил все остальные варианты генетического кодирования.

Контрольные вопросы и задания

1. Сформулируйте определение понятия "информация", которое наиболее адекватно для биологических применений.

2. Почему не существует единого для всех наук определения понятия "информация"?

3. Запишите формулу Шеннона и объясните смысл входящих в неё параметров.

4. Проиллюстрируйте отличие между понятиями "количество информации" и "ценность информации", используя какое-либо предложение.

5. Что такое фиксируемость информации?

6. Что такое инвариантность информации?

7. Что такое бренность информации?

8. Что такое изменчивость информации?

9. Что такое транслируемость информации?

10. Что такое размножаемость информации?

11. Что такое мультипликативность информации?

12. Что такое действенность информации?

13. Что такое оператор, порождаемый информацией?

14. Что такое семантика информации?

15. Что такое полипотентность информации?

16. Что такое полезность информации?

17. Что такое истинность информации?

18. Что такое ценность информации? В чём она проявляется? Как определяется мера ценности информации?

19. Что такое рецепция информации? Какие выделяют два способа рецепции?

20. Каким образом происходит запоминание информации?

21. Чем различаются макроинформация и микроинформация?

22. Что такое гиперцикл Эйгена? Как он устроен?

23. Что такое гугол и обратный гугол? Где они используются?

24. Оцените количество информации, содержащееся в гиперцикле биосинтеза белка?