МИКРОБИОЛОГИЯ БИОЛОГИЯ ПРОКАРИОТОВ ТОМ III - А. В. ПИНЕВИЧ - 2009

ГЛАВА 16. ЦИТОГЕНЕТИКА

16.3. Инфраструктура генома

Необходимо сразу же отметить терминологическую неточность, которая прочно закрепилась в биологической литературе — понятие «геном» (совокупность генов) смешивается с понятием «репликон» (физическая единица репликации, т. е. хромосома, плазмида или нуклеиновая кислота вируса).

Например, повсеместно говорят о «секвенировании генома», забывая о том, что в действительности речь идет о секвенировании ДНК репликона, состоящего из кодирующих и некодирующих участков.

Тем не менее, мы будем верны традиции и в дальнейшем станем использовать термин «инфраструктура генома» в его общепринятом, хотя и не точном значении.

Инфраструктура генома изучается с помощью разных подходов. Главной целью служит выявление специфических участков, отвечающих за те или иные фенотипические признаки. Традиционным методом служит картирование, которое может быть физическим или генетическим.

Физическое картирование позволяет выразить взаимное расположение и протяженность инфраструктурных элементов генома в молекулярных единицах (п. н.). Оно производится с помощью рестрицирования в сочетании с PFGE-электрофорезом, путем создания генных энциклопедий, а также секвенирования тотальной ДНК.

Генетическое картирование позволяет определить порядок расположения генов на хромосоме или плазмиде и их относительную взаимную удаленность. Оно осуществляется за счет анализа частоты рекомбинаций, в частности при конъюгации (см. раздел 16.6.1.2).

Генетическое картирование имеет ряд недостатков. Прежде всего, создание генетических карт является трудоемким делом. Кроме того, межгенное расстояние на генетической карте соответствует частоте рекомбинаций, а она, в свою очередь, неоднозначно зависит от характера распределения «горячих» рекомбинационных точек.

Нуклеотидный состав ДНК. Этот критерий инфраструктуры ДНК, выраженный в относительном содержании GC-nap, т. е. дроби (G+C)/(A+T) х 100%, косвенно характеризует белковый паттерн, или протеом данного объекта. Он отражает частоту использования кодонов; кроме того, высокое или низкое содержание GC-nap во всем геноме или его отдельной части определяется вариабельностью третьей позиции в кодоне, что называется вырожденностью кода. Например, аланин кодируют синонимические триплеты GCA, GCC, GCG и GCU.

В истории биологии мол. %GC сыграл роль первого индикатора ультраструктуры генома. Его оценивали прямым способом (по соотношению содержания нуклеотидов в пятнах на тонкослойной хроматограмме полного гидролизата ДНК) или косвенным путем (по температурю тепловой денатурации ДНК, которая находится в прямой зависимости от относительного количества GC- nap).

Относительное содержание GC-nap в прокариотной ДНК варьирует в пределах 20-80%. Хотя этот валовой биохимический показатель не отражает последовательность нуклеотидов (т. е. не является филогенетическим маркером и может совпадать у объектов, принадлежащих к разным ветвям глобального древа), его широко используют в систематике на уровне малых таксонов. В частности, внутривидовой разброс мол. %GC не превышает 5% (см. I том учебника).

Существует зависимость между нуклеотидным составом ДНК и способностью переносить экологический стресс. В частности, термофилы характеризуются повышенным мол. %GC по сравнению с мезофилами, что объясняется более высокой температурой плавления GC-богатой ДНК (в паре GC три водородные связи, а в паре АТ — две).

Нуклеотидная асимметрия хромосом. Распределение нуклеотидов по длине ДНК-дуплекса или между комплементарными цепями ДНК неодинаково и называется нуклеотидной асимметрией (англ. nucleotide skew).

Цис-асимметрия выражается в том, что относительное содержание GC-nap в дуплексе ДНК возрастает по мере удаления от ориджина репликации.

Транс-асимметрия, в свою очередь, выражена в том, что две цепи ДНК — ведущая и ведомая (см. раздел 16.4.1.1) — различаются между собой по содержанию нук-

леотидов. Это связано с разными способами репликативного синтеза, разным распределением генов и разной частотой использования кодонов в двух цепях. Непрерывно синтезируемая, или ведущая цепь относительно обогащена G и относительно обеднена С. Для отстающей цепи, синтезируемой из фрагментов Оказаки, имеет место обратное соотношение между G и С. Единственным известным исключением служит аномально GC — богатая (78 мол. %) актинобактерия Streptomyces coelicolor, у которой ведущая цепь относительно обогащена С и относительно обеднена G.

В некоторых случаях (например, у представителей филы ВХII Proteobacteria, а также у представителей филы ВХIII Firmicutes с высоким содержанием GC-nap) ведущая цепь относительно обогащена Т и обеднена А. Напротив, ведущая цепь фирмикутов с низким содержанием GC-nap обогащена А и обеднена Т. У архей нуклеотидная асимметрия не выявлена, что может быть связано с присутствием нескольких ориджинов репликации в одной археотной хромосоме (см. раздел 16.4.1.1).

Поляризация хромосом. Большинство открытых рамок считывания (см. выше) у бактерий, как правило, расположено на ведущей цепи, и они транскрибируются в том же направлении, в котором реплицируется хромосома. Это называется правилом коориентации (англ, coorientation rule). Специфика бактерий, обладающих линейными хромосомами, например, Borrelia burgdorferi В31, состоит в том, что у них примерно половина генов транскрибируется от центрально расположенного ориджина по направлению к одному концу хромосомы, а остальные гены — по направлению к другому концу.

Между ведущей и отстающей цепями неравномерно рапределяются некоторые олигомерные некодирующие повторы. Например, в ведущей цепи Е. coli содержится ~75% общего числа Chi-элементов, а также ~82% Rag-элементов (см. разделы 16.3.2.1 и 16.5.1.4).

16.3.1. Кодирующие участки

Нуклеотидный генетический код (англ. code — шифр) несет зашифрованную информацию о типах и последовательности расположения аминокислот — мономеров, из которых на рибосомах синтезируются полипептидные цепи.

Следуя данному определению кода, мы должны считать кодирующими участками ДНК (англ. coding region) только гены белка, т. е. ограниченные инициирующим и терминирующим кодонами открытые рамки считывания, которые транскрибируются в молекулы мРНК. Необходимо также учитывать, что мРНК, а также продукты ее трансляции — белки могут подвергаться посттранскрипционному процессингу (см. раздел 16.7.4). Таким образом, ген белка не обязательно полностью колинеарен транскрипту или полипептиду.

Выше мы уже отметили, что гены подразделяются на структурные и регуляторные. Помимо них в состав генома входят контролирующие генетические элементы, которые влияют на экспрессию генов. Хотя они и образованы специфической последовательностью нуклеотидов (часто это повторяющиеся группы нуклеотидов), в ней отсутствуют элементы генетического кода — кодоны.

16.3.1.1. Гены

В предыдущих разделах мы уже говорили о том, что средний размер прокариотного гена равен ~900 нуклеотидам, а минимальный набор генов, необходимый для существования прокариотной клетки как автореплицирующейся биологической структуры, равен 256 генам.

Напомним также, что гены подразделяются на незаменимые и не-незаменимые, а также на структурные и регуляторные. Однако классификация генов этим не исчерпывается.

Ядро генома и штаммоспецифичные гены. Ядро генома (англ. core) — это консервативный набор генов, который имеется у большинства бактериальных штаммов. Помимо него существует вариабельный пул штаммоспецифичных генов, который позволяет разным бактериям адаптироваться к специфическим экологическим условиям, в которых они оказались.

Впервые такое разграничение генов было проведено в начале 2000-х гг. на примере энтеропатогена человека Campylobacter jejuni. С помощью методики микрочипов (англ. microarray), которая основана на гибридизации находящейся в растворе ДНК с иммобилизованными полинуклеотидными зондами, у 11 штаммов этой бактерии были выявлены 1,1 тыс. генов ядра, которые отвечают за метаболические и регуляторные процессы. Помимо них были выявлены штаммоспецифичные детерминанты вирулентности (~20% общего числа генов), ответственные за биогенез таких поверхностных молекул и структур, как липополисахариды, капсулы и жгутики.

При аналогичном сравнении штаммов другого энтеропатогена, Helicobacter pylori было установлено, что из 1643 проанализированных генов 1281 консервативны, а 22% — штаммоспецифичны.

Именно за счет штаммоспецифичных генов в основном обеспечивается полиморфизм бактериальных геномов.

Функциональные группы генов в соответствии с продуктами их экспрессии. Одной из важнейших геномных характеристик служит распределение генов по функциональным группам. Такая логическая операция стала возможной только в результате секвенирования прокариотных геномов.

Структура первого полностью секвенированного бактериального генома — генома патогена человека Haemophilus influenzae была опубликована в 1995 г.

К началу 2000 г. был расшифрован еще 21 прокариотный геном, в том числе у четырех архей (Aeropyrum pemix, Archaeoglobus fulgidus, Methanococcus jannashii и Pyrococcushorikoshii). По понятным причинам, половину проанализированных объектов составили важнейшие из патогенов человека (Borrelia burgdorferi, Chlamydia pneumoniae, C. trachomatis, E. coli, Helicobacter pylori, Mycobacterium tuberculosis, Mycoplasma genitalium, M. pneumoniae, Rickettsia prowazekii и Treponema pallidum).

Темп исследований стремительно нарастал, и к концу XX в. были секвенированы еще два археотных генома (Halobacterium sp. и Pyrobaculum aerophilum), а также 12 геномов непатогенных бактерий. Помимо анализа патогенов человека, особенно тех, которые передаются через пищевые продукты, целью многих геномных проектов стали безвредные партнеры-комменсалы, в частности бифидобактерии, а также используемые в промышленности молочнокислые бактерии.

К моменту написания III тома учебника полностью секвенировано свыше 300 прокариотных геномов. Соответствующая информация, наряду с данными об отдельных последовательностях еще не расшифрованных геномов хранится в базах молекулярно-биологических данных, или генетических «банках».

В открытом доступе имеется около 20 коллекций последовательностей геномной ДНК прокариотов. В первую очередь это взаимно дополняющие универсальные базы данных —GenBank (http://www.ncbi.nlm.nih.gov/Genbank/), EMBL (http://www.ebi.ac.uk/embl/) и DDBJ (http://www.ddbj.nig.ac.jp/). Они аннотированы, т. е. содержат указания на структуру и функцию отдельных генов. Есть и более специализированные базы данных, напри-

мер для архей — UCSC Archaeal Genome Browzer (http://archaea/ucsc/edu/) или только для Е. coli К-12 — ЕсоСус (http://ecocyc.org/). Особо ценны те базы данных, которые аннотированы на основе сравнительного анализа нескольких геномов — в частности EntrezGenome (http://eutils.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome). Некоторые из них автоматически выдают необходимый результат, другие требуют индивидуального аналитического подхода.

Помимо веб-сайтов, существует до 20 вариантов программного обеспечения, которые предназначены для рабочего анализа инфраструктуры генома, например BLAST(http://www.ncbi. nlm.nih.gov.blast/).

В качестве примера распределения генов по группам в соответствии с продуктами их экспрессии приведем результаты секвенирования генома цианобактерии Synechocystis sp. РСС 6803, полученные в 1997 г. японскими исследователями Канеко (Т. Kaneko) и Табатой (S. Tabata) (табл. 19).

Таблица 19. Функциональные группы генов Synechocystis sp. РСС 6803

Категория продукта экспрессии (белка)	Число генов
Репликация, рекомбинация и репарация	49
Транскрипция	24
Траисляция	144
Транспорт	158
Энергетический метаболизм	217
Центральные пути конструктивного метаболизма	31
Метаболизм нуклеиновых кислот	38
Метаболизм аминокислот	84
Метаболизм простетических групп и кофакторов	108
Метаболизм липидов	35
Биогенез клеточной оболочки	64
Регуляторные системы	209
Прочие категории	255
Неизвестные функции	1752
Всего	3168

Гены-ортологи и гены-паралоги. Путем частичного или полного секвенирования ДНК в прокариотных геномах выявлены дивергентные гены с консервативными участками, унаследованными от предкового гена. Такие взаимно гомологичные гены могут входить либо в один и тот же геном, либо в разные геномы. Взаимно гомологичные гены, входящие в состав разных геномов, называются ортологами (англ. ortholog; от греч. orthos — прямой и лат. homología — гомология; «прямой гомолог»). В свою очередь, гены-гомологи внутри одного и того же генома называются паралогами (англ. paralog; от греч. para — возле и лат. homología — гомология; «приданный гомолог»).

Ортологи возникают в результате мутирования и последующего вертикального или горизонтального переноса генов. В отличие от них паралоги являются результатом внутригеномных генных дупликаций, сопровождающихся мутированием.

Ортологи, или гены, унаследованные разными объектами от общего предка, обычно сохраняют исходную функцию. В свою очередь, паралоги в ходе эволюции могут приобрести функцию, которая отличается от исходной.

Накопление паралогов привело к тому, что содержание открытых рамок считывания в бактериальных геномах варьирует от 12% (в случае Treponema pallidum) до 50% (в случае В. subtilis).

В некоторых генных семействах представительство паралогов выражено особенно ярко. Примером служит ген АТФ-связывающей субъединицы АВС-пермеазы (см. II том учебника); число его паралогов в геноме Е. coli превышает 70. С функциональной точки зрения такая генетическая «избыточность» вполне оправданна, так как она позволяет бактерии импортировать и экспортировать самые разнообразные субстраты и метаболиты.

Гены-сироты. В том случае, если выявленный ген не обнаруживает гомологии с генами других бактерий, его называют геном-сиротой (англ. orphan gene). Число таких генов в конкретном геноме достигает 20-30%, хотя иногда их значительно больше (например, 56% у Helicobacter pylori и даже 80% у Rickettsia conorii).

Обычно это быстро эволюционирующие гены симбиотических бактерий, обеспечивающие их функциональное разнообразие или узкую адаптацию к определенному хозяину. Однако не следует упускать из виду то, что средний размер гена-сироты составляет ~670 п. н., а это значительно меньше среднего размера обычного гена (~1 т. п. н.). Поэтому некоторые из них могут оказаться ошибочно аннотированными генами или даже псевдогенами (см. ниже).

Криптические гены. В 1983 г. американский генетик Холл (В.G.Hall) предложил называть криптическими (англ. cryptic), или молчащими (англ. silent) такие последовательности ДНК, которые обычно не проявляются фенотипически в жизненном цикле бактерии. Тем не менее, они могут экспрессироваться у относительно немногих представителей популяции в результате спонтанной мутации на основе инсерций, рекомбинаций или иных вариантов внутригеномных перестроек. Иначе говоря, молчащие аллели криптических генов не экспрессируются в клетках дикого типа при любых условиях, однако мутационным путем они превращаются в активные аллели, которые начинают экспрессироваться в лаборатории на селективной среде.

Давление отбора направлено против экспрессии молчащего гена в обычных условиях и благоприятствует ей в специфических условиях. Таким образом, активная аллель очень редко проявляется в обычных условиях, и поэтому криптический ген пребывает в молчащем состоянии. Короче говоря, активация молчащих генов — это форма генетической регуляции экспрессии генов на популяционном уровне (в отличие от физиологической регуляции на индивидуальном уровне, например, в опероне; см. раздел 16.3.1.2).

Приведем два примера криптических генов Е. coli.

Первый из них — это ген синтазы ацетогидроксикислоты (англ. acetohydroxy acid synthase, AHAS). Этот фермент катализирует начальную реакцию пути биосинтеза изолейцина, образуя 2-ацето-2-гидроксибутират из 2-гидроксибутирата и пирувата. У штамма Е. coli К-12 существуют три изофермента AHAS (I, II и III). В норме экспрессируются только AHAS I и AHAS III, причем в присутствии валина рост клеток дикого типа подавляется, поскольку эта аминокислота ингибирует две изоформы фермента. Ген третьей изоформы, AHAS II (ilvG), не чувствительной к валину, инактивирован по причине сдвига рамки считывания. Однако, если происходит мутация с возвращением рамки считывания «в фазу», появляются клетки, способные расти в присутствии валина. Таким образом, ген ilvG находится в популяции Е. coli К-12 в криптическом состоянии и активируется в зависимости от условий среды — в присутствии валина он экспрессируется, а когда нет валина, более выгоден его сайленсинг.

Второй пример — это ген cel, кодирующий β-глюкозидазу, благодаря которой целлобиоза может использоваться в качестве специфического источника энергии и углерода. В норме Е. coli не утилизирует целлобиозу. Однако до 90% природных изолятов этой бактерии дают спонтанных мутантов, которые в селективных условиях роста приобретают способность утилизировать β- глюкозиды. В присутствии второго источника углерода, например, глицерола, целлобиоза угнетает рост сеl⁺-штаммов, действуя как ингибитор β-глюкозидазы. Таким образом, идет негативный отбор не по отношению к криптическому гену, а только к его сеl+-аллели. В свою очередь, экспрессия сеl⁺-аллели выгодна в редких условиях, когда целлобиоза становится единственным источником энергии и углерода.

Псевдогены. Эти участки хромосомы гомологичны функционально активным генам. Однако они не транскрибируются и не экспрессируются с образованием функционально активного белка. Псевдогены возникают в результате мутаций, нарушающих одну из стадий экспрессии «истинного» гена, прежде всего, инициацию или терминацию транскрипции. В частности, делеция пары оснований приводит к сдвигу рамки считывания и досрочно вызывает терминацию транскрипции. Инактивированный ген в дальнейшем становится местом накопления новых мутаций. В отличие от криптических генов, псевдогены «неизлечимы» и представляют собой тупик молекулярной эволюции.

Псевдогенов много в геномах эукариотов (так, в геноме человека содержится до 100 псевдогенов кератина). В случае прокариотов они более редки.

Бактериальные псевдогены встречаются преимущественно у внутриклеточных паразитов, в частности риккетсий, которые содержат около 25% некодирующей ДНК — повторов, псевдогенов и «усеченных» генов. Один из таких псевдогенов — это ген metK; он кодирует S-аденоэилметионин-синтетазу (SAM-синтетазу). Поскольку SAM импортируется в готовом виде из цитоплазмы хозяина, ген metK этой бактерии не нужен и поэтому он находится в процессе деградации.

У архей примерами псевдогенов являются нуклеотидные последовательности в полностью секвенированных геномах термоацидофилов и метаногенов, которые сходны со структурными генами бактериальной НАДН-дегидрогеназы-1 (см. II том учебника).

Результатом дальнейшего преобразования псевдогенов, по-видимому, являются спейсеры (англ. spacer — прокладка). Это нефункционирующие последовательности, разбросанные между генами. В частности, в геноме Е. coli число спейсеров составляет 4403, а их средний размер — 120 п. н. (разброс от нескольких п. н. до 1,73 т. п. н.). Хотя спейсеры могут содержать промоторы, они в основном состоят из нефункционирующей ДНК, обогащенной АТ-парами.

Гены внутри генов (англ. overlapping genes — взаимно перекрывающиеся гены). Если последовательность ДНК кодирует более одного гена, это называется взаимным перекрыванием генов. Иначе сказать, один ген находится внутри другого. Такая организация обычна для вирусных репликонов и обеспечивает компактизацию их генов; для прокариотов, в частности бактерий, это редкое исключение.

В качестве примера можно назвать два гена Thermus thermophilus — rnрА и rрmН. Обычно у бактерий ген rnрА, кодирующий субъединицу РНКазы Р, расположен правее (downstream) гена грmН, кодирующего рибосомный белок L34. В данном же случае ген трmН расположен внутри гена rnрА. Старт-кодоны этих генов разделяются четырьмя парами нуклеотидов; с левого (upstream) кодона начинается транскрипция гена rnрА, а с правого — транскрипция гена rрmН. Оба гена транскрибируются не в фазе (т. е. со сдвигом триплетов), но в одной и той же ориентации. Иными словами, открытая рамка считывания белка RnpA проходит через открытую рамку считывания для белка RpmH.

Еще один пример связан с двумя взаимно перекрывающимися оперонами Е. coli — тетраци- стронным опероном frdABCD и моноцистронным опероном атрС. Первый из них содержит гены фумаратредуктазы, а второй ген β-лактамазы. Четвертый ген фумаратредуктазы, frdD перекрывается не в фазе с нетранслируемой последовательностью длиной 30 п. н., которая входит в участок оперона аmрС, кодирующий сигнальную последовательность белка АmрС.

В чем смысл существования перекрывающихся генов у прокариотов? Ответ на этот вопрос еще не получен. Эволюция геномов, видимо, не допускает перекрывания тех генов, продукты экспрессии которых функционально несовместимы. Иными словами, взаимное перекрывание — это один из способов увеличения сопряженной регуляции генов, хотя она достигается иным путем, чем в оперонах (см. ниже).

16.3.1.2. Опероны

Концепцию бактериального оперона, или координированно экспрессирующейся группы генов (англ. «the genetic, unit of coordinated expression») предложили в 1961 г. Франсуа Жакоб и Жак Моно (J.Monod; Нобелевская премия по физиологии и медицине, 1965 г.).

На основе этой концепции впервые было дано объяснение адаптационного механизма, «включающего» или «выключающего» группы функционально объединенных генов в меру доступности субстратов, за метаболизм которых данные гены отвечают.

Прокариоты — очень рационалистичные живые существа. Они ничего не делают напрасно и строго соразмеряют свою жизнедеятельность с факторами окружающей среды, в частности с ее трофическими ресурсами.

Например, чтобы быстро реагировать на изменяющиеся внешние условия, гетеротрофные бактерии должны переключаться от использования одного питательного субстрата на другой. Поскольку невыгодно постоянно содержать метаболическую систему, рассчитанную на любой питательный рацион, бактерия не синтезирует соответствующий фермент до тех пор, пока его субстрат не появился в окружающей среде. Возможна и иная ситуация: бактерия перестает вырабатывать биосинтетический фермент, если его продукт предоставляется ей в готовом виде.

Для максимальной экономичности такого способа метаболической адаптации бактериальные гены объединяются в кластеры. Иначе говоря, все ферменты и переносчики, необходимые для данного метаболического пути, кодируются тесно сцепленными генами. Они котранскрибируются в молекулу полицистронной мРНК, которая транслируется с образованием соответствующих функциональных продуктов.

У прокариотов редко наблюдается индивидуальная транскрипция генов; большинство из них образует физически интегрированные группы. Координированный контроль транскрипции этих генов основан на взаимодействии регуляторного белка с регуляторным сайтом, расположенным по соседству с общим промотором.

Адаптивный контроль транскрипции осуществляется путем индукции или репрессии. Суть явления индукции (англ. induction; от лат. inductio — выведение на сцену) заключается в том, что при появлении нового субстрата синтезируется воздействующий на него фермент; наоборот, при исчезновении субстрата биосинтез соответствующего фермента прекращается. В свою очередь, смысл репрессии (англ. repression; от лат. reprehenso — удерживать) состоит в том, что если в окружающей среде присутствует субстрат, то биосинтез образующего его фермента прекращается. В обоих случаях бактерия с выгодой для себя использует внешние ресурсы и не расходует напрасно свои собственные.

Индукция и репрессия ферментов осуществляются с помощью специфических низкомолекулярных регуляторов. Регуляторы, которые вызывают образование ферментов, осуществляющих их собственный метаболизм, называются индукторами. В свою очередь, регуляторы, которые специфически подавляют образование ферментов, синтезирующих их самих, называются корепрессорами.

Функцию индуктора или корепрессора могут выполнять не только субстраты или продукты ферментов, но и их неметаболизируемые молекулярные аналоги. Например, индуктором β-галактозидазы и β-галактозидпермеазы является изопропилтио- β-D-галактозид (англ. isopropylthio-β-D-galactoside, IPTG). Он не гидролизуется β-галактозидазой (рис. 167), однако служит субстратом тиогалактозид-трансацетилазы.

Рис. 167. Индукторы и субстрат лактозного оперона. IРТС — изопропил- β-D-тиогалактозид; β-гал — β-галактозидаза.

Индукция и репрессия обычно затрагивают не один фермент; совместно регулируются ферменты целого метаболического пути, а также транспортные белки. Классическим примером такой системы, регулирующей экспрессию генов, служит лактозный оперон.

Согласно Жакобу и Моно, оперон (англ. ореrоn; от лат. operatio — действие и греч. ontos — сущее; «нечто действующее») — это такой участок генома, который содержит группу последовательно расположенных и функционально родственных структурных генов (цистронов) и транскрибируется в виде полицистронной молекулы мРНК, транслируемой без процессинга, как единое целое.

Термином «цистрон» (англ. cistron; от лат. cis — на этой стороне и trans — на противоположной стороне; «нечто, локализованное в сis-trans положении») по традиции обозначается эквивалентная гену функциональная генетическая единица, которая может быть выявлена с помощью цис/транс теста. При цис-конфигурации мутантные аллели двух разных генов находятся в одной хромосоме, а при транс-конфигурации во взаимно гомологичных хромосомах. В гетерозиготе происходит комплементация обеих мутаций, что приводит к дикому фенотипу. Иными словами, факт комплементации двух мутаций указывает на принадлежность разным цистронам.

Помимо структурных генов в оперон входит отдельно расположенный регуляторный ген, а также физически сцепленные со структурными генами не транскрибируемые контролирующие генетические элементы — промотор, оператор и терминатор.

Таким образом, классическая концепция бактериального оперона (которая также распространяется на гены архей) предусматривает:

— физическое сцепление функционально родственных генов, транскрибируемых в виде полицистронной РНК;

— адаптивную экспрессию этих генов, благодаря регуляции транскрипции (позитивной и негативной).

Позитивная регуляция транскрипции осуществляется через промотор (сигма- факторами РНК-полимеразы; см. раздел 16.7.1). Негативная регуляция осуществляется через оператор (белками-репрессорами; см. ниже).

У эукариотов также встречаются опероны, но очень редко. Примерами служат трипаносомы и нематода Caenorhabditis elegans, многие гены которых котранскрибируются в полицистронные

мРНК. Но, в отличие от прокариотных полицистронных мРНК, они перед трансляцией процессируются в моноцистронные мРНК.

Лактозный оперон (lac-оперон). Этот оперон, ответственный за импорт и гидролиз дисахарида лактозы (рис. 167), содержит три структурных гена:

— lacZ (кодирует β-галактозидазу, гидролизующую лактозу);

— lacY (кодирует β-галактозидпермеазу, импортирующую лактозу);

— lасА (кодирует β-галактозид-трансацетилазу, переносящую ацетильную группу от ацетил-СоА на β-галактозиды; физиологическая роль этого фермента неясна; возможно, он позволяет детоксицировать и выводить из клетки неметаболизируемые β-галактозиды).

Все три гена lacZYA котранскрибируются в виде одной молекулы мРНК с общего промотора lасР размером ~85 п. н. (рис. 168).

Рис. 168. Лактозный оперон и механизм его репрессии/индукции.

При появлении в окружающей среде вещества-индуктора инициируется транскрипция ДНК на участке от промотора до терминатора. Таким образом, все структурные гены лактозного оперона экспрессируются одновременно, в количественном соотношении 1:1:1. Поскольку бактериальная мРНК крайне нестабильна (время полураспада ~3 мин), биосинтез продуктов лактозного оперона при удалении индуктора быстро прекращается.

Благодаря независимой транскрипции гена-регулятора lacl, расположенного левее (upstream) от промотора, синтезируется моноцистронная мРНК. При ее трансляции образуется репрессор (тетрамер субъединиц ~38 кДа). Поскольку ген lacl детерминирует диффундирующий продукт, ему не обязательно находиться в тесном сцеплении со структурными генами.

Репрессор связывается с оператором lасО, который расположен рядом со структурными генами lacZYA, что блокирует инициацию транскрипции в промоторе lасР (рис. 168).

При индукции лактозного оперона индуктор присоединяется к репрессору и образует с ним комплекс, не обладающий сродством к оператору lасO (в репрессоре

имеются два сайта связывания: один предназначен для оператора, другой — аллостерический — для индуктора).

Таким образом, регуляция лактозного оперона носит негативный характер и происходит на фоне продолжающегося биосинтеза репрессора. Мишенью для репрессора является оператор, расположенный рядом с промотором.

Какова природа индуктора лактозного оперона? Парадоксально, что лактоза не является индуктором, т. е. она не вызывает аллостерического изменения конформации репрессора. В данном случае природным индуктором служит дисахарид аллолактоза (рис. 167), который образуется при гидролизе небольшого количества поступившей в клетку лактозы с переносом галактозного остатка на остаток глюкозы (из положения-4 в положение-6).

Общие средства регуляции транскрипции будут более подробно рассмотрены в разделах 16.7.1 и 18.1.

Еще раз отметим, что классическое понятие оперона распространяется на комплекс, состоящий из структурных генов (кодирующих функционально объединенную группу ферментов), регуляторного гена и контролирующих генетических элементов.

В настоящее время термин «оперон» используется в более широком смысле — для обозначения любой группы примыкающих друг к другу генов, которые транскрибируются с общего промотора в полицистронную РНК.

Примером «неклассического» оперона служит позитивно регулируемый оперон рибосомных РНК. Его особенность состоит в том, что он не содержит регуляторного гена и оператора, и с него транскрибируется не полицистронная мРНК, а разные типы рРНК.

Оперон рибосомных РНК (rrn-оперон). У бактерий гены рРНК, как правило, объединяются в оперон и расположены друг за другом в следующем порядке: 5'-ген 16S рРНК (rrs; ~1,5 т. п. н.) — ген 23S рРНК (ггl; ~3 т. п. н.) — ген 5S рРНК (ггl; ~120 п. н.) — 3'.

Между генами 16S рРНК и 23S рРНК обычно находится внутренний транскрибируемый спейсер размером 50-1100 п. н., который вырезается в ходе процессинга первичного транскрипта (см. раздел 16.3.2.4).

У архей гены рибосомных РНК обычно также образуют оперон и расположены в том же порядке, как у бактерий. Как правило, между генами 16S рРНК и 23S рРНК у них также находится внутренний транскрибируемый спейсер (см. раздел 16.3.2.4).

У эукариотов гены трех рибосомных рРНК расположены в ином порядке, чем у прокариотов: 5'-ген 18S рРНК — ген 5,8S рРНК — ген 28S рРНК-3'. Внутренние транскрибируемые спейсеры повсеместно отсутствуют. Ген четвертой рибосомной РНК (5S рРНК) расположен отдельно; исключением служат некоторые протисты и грибы, у которых он физически сцеплен с геном 28S рРНК.

В бактериальных геномах присутствует либо единственный rm-оперон (например, в случае Mycobacterium spp. и Mycoplasma spp.), либо их несколько (до десяти в случае В. subtilis).Множественные rrn-опероны могут быть либо идентичными, либо не идентичными. Во втором случае различия не затрагивают нуклеотидную последовательность консервативных генов 16S рРНК, 23S рРНК и 5S рРНК, а связаны с количеством копий гена 5S рРНК или с вхождением генов тРНК в состав внутреннего транскрибируемого спейсера (см. раздел 16.3.2.2). Например, в геноме E. coli содержатся семь rrn-оперонов (rrnABCDEGH). В каждом из них присутствует только одна копия гена 16S рРНК и 23S рРНК. В то же время оперон rrnВ содержит одну копию гена 5S рРНК, а оперон rrnD — две копии, разделенные геном тРНК. Кроме того, если в оперонах rmBCEG внутренний транскрибируемый спейсер содержит ген tPHK^Glu, то опероны rrnADH одновременно несут гены тРНК^Alа и тРНК^Ilе. Несмотря на указанные различия в структуре множественных rrnоперонов, зрелые рРНК одного и того же микроорганизма идентичны, т. е. различия между ними устраняются в ходе процессинга пре-рРНК.

Медленно растущие бактерии обычно имеют меньшее число множественных rrn- оперонов, хотя это не говорит о прямой связи с регуляцией скорости роста.

Вышеизложенная модель rrn-оперона практически универсальна. Однако не обходится без исключений. Речь идет о так называемых разобщенных rrn-оперонах (англ. split rRNAoperon). В данном случае гены 23S рРНК и 5S рРНК образуют дицистронный оперон, а ген 16S рРНК расположен отдельно от них, иногда в тесном физическом сцеплении с дополнительным геном-сиротой 5S рРНК (см. раздел 16.3.1.1).

Разобщенные rrn-опероны обнаружены у некоторых бактерий (примерами служат Borrelia burgdorferi, Helicobacter pylori и Wolbachia pipientis) и архей (в частности, Archaeoglobusfulgidus). Разобщенность rrn-оперона также характерна для большинства митохондриальных геномов и, хотя очень редко, наблюдается в геноме пластид.

Наконец, известны примеры для бактерий (Leptospira interrogans) и архей (Thermoplasma acidophilum), когда физическое сцепление между генами 16S рРНК, 23S рРНК и 5S рРНК вообще отсутствует, и они находятся в разных участках хромосомы.

Напомним, что современная филогенетическая система живых существ, в том числе прокариотов. строится на количественной оценке взаимной гомологии рРНК определенного класса (см. I том учебника). В основе такого подхода лежит объективно существующая универсальность и безальтернативность механизма трансляции, подкрепленная высокой консервативностью рибосомных РНК.

Выбор первичной структуры рРНК в качестве универсального филогенетического маркера позволил реконструировать глобальное древо и детализировать структуру его ветвей.

Однако подход, основанный на сравнительном анализе 16S рРНК, имеет слабые стороны и ограничения. Чтобы их преодолеть, используются дополнительные детали инфраструктуры rrn- оперона (см. раздел 16.3.2.2).

16.3.1.3. Мобильные элементы

В геномах бактерий, архей и эукариотов широко распространены мобильные элементы (англ. transposable element). Они представляют собой участки ДНК, способные к транспозиции (англ. transpose — переставлять), т. е. к перемещению из одного сайта хромосомы или плазмиды в другой, не гомологичный ему сайт. Эти участки кодируют фермент(ы), обеспечивающие транспозицию, и сами же ей подвергаются.

Транспозиция может проходить в пределах одного генома или между геномом- донором и геномом-мишенью. В одних случаях она приводит к потере мобильного элемента донорным репликоном. В других случаях ей сопутствует копирование мобильного элемента, причем одна копия остается в донорном сайте, а другая появляется в акцепторном сайте. Мобильные элементы, за исключением бактериофагами, не имеют собственного ориджина репликации и этим отличаются от плазмид.

Мобильные элементы содержат 1-2 открытые рамки считывания (гены белков, необходимых для транспозиции). Самые простые мобильные элементы, инсерцион- ные последовательности, этим ограничиваются. Более сложные мобильные элементы, транспозоны, несут дополнительные детерминанты, которые не имеют отношения к транспозиции и фенотипически проявляются в качестве селективных признаков у обладателя генома-мишени.

Число описанных мобильных элементов у прокариотов превышает 500, и они составляют значительную часть хозяйских геномов.

Инсерционные последовательности. Простейшие из мобильных элементов — это инсерционные последовательности (англ. insertion sequence, IS; от англ. insert — вставлять). Их длина 200 п. н. — 2,5 т. п. н., и они несут на обоих концах инвертированные повторы (англ. inverted repeat; IR) длиной 10-40 п. н. (рис. 169). Поскольку транспозиция сопровождается копированием сайта-мишени (см. ниже), инсерционная последовательность фланкирована короткими, длиной 2-14 п. н. прямыми повторами (англ. direct repeat; DR).

Рис. 169. Структура инсерционной последовательности и фланкирующих ее участков ДНК-мишени. 1 — прямой повтор; 2 — инвертированный повтор; 3 — сайт для разреза с помощью транспозазы; 4 — сайт для узнавания и связывания транспозазы; 5 — ген транспозазы.

Стрелкой обозначен промотор.

Кодирующая область, находящаяся внутри инсерционной последовательности, содержит ген транспозазы (tmpA), отвечающий за ферментативный процесс транспозиции. Промотор этого гена расположен внутри левого инвертированного повтора. В случае использования репликативного способа транспозиции (см. ниже) гену транспозазы сопутствует ген резольвазы tnpR. Внутри инвертированных повторов находится концевой сайт из 2-3 п. н. для одноцепочечного разреза ДНК с помощью транспозазы и соседний с ним сайт для узнавания и связывания этого фермента (рис. 169).

В настоящее время инсерционные последовательности (всего около 500 типов) обнаружены у представителей 70 родов, соответственно, 155 видов бактерий. У архей они описаны только для четырех родов — Halobacterium, Haloferax, Methanobrevibacter и Sulfolobus.

Некоторые геномы характеризуются необычно высоким содержанием IS-последовательностей, в частности геномы архей рода Sulfolobus (170 в случае S. acidocaldarius). Другие, напротив, почти не содержат IS-последовательностей (примером служат бактерии Buchnera spp. и Rickettsia spp., а также археоты Руrо- coccus spp.).

Номенклатура инсерционных последовательностей отражает, в первую очередь, историю их описания (семейства IS1, IS3, IS4 и т. д.), хотя учитываются и особенности их инфраструктуры, а также их хозяйская принадлежность.

Транспозоны. Инсерционные последовательности эгоистичны, т. е. они не имеют фенотипического проявления и кодируют только ферменты, обеспечивающие транспозицию. В отличие от них транспозоны (англ. trasposon, Tn; от англ. transposition и греч. on — сущее; «нечто, переносимое с одного места на другое») дополнительно содержат те или иные селективные маркеры.

Так называемые составные транспозоны (англ. compound transposon) имеют размер 750 п. н. — 50 т. п. н. и содержат центральную область и два боковых плеча, каждое из которых представляет собой инсерционную последовательность. Плечи транспозона находятся в прямой или инвертированной взаимной ориентации и обеспечивают транспозицию этого сложного мобильного элемента.

Практически любой участок ДНК, фланкированный идентичными или почти идентичными инсерционными последовательностями, может стать частью составного транспозона. Иначе говоря, поскольку инсерционные последовательности универсально представлены в прокариотных геномах (исключением, видимо, является В. subtilis), любой хромосомный или плазмидный ген может существовать в качестве транспозона.

Классическим примером составного транспозона служит транспозон, который кодирует термостабильный токсин Е. coli и содержит продублированную инсерционную последовательность IS1.

От составных транспозонов отличаются транспозоны, несущие по обоим концам не инсерционные, а IS-подобные последовательности, которые существуют только в составе транспозона. Примерами несоставных транспозонов являются транспозон ТпЗ (обеспечивающий лекарственную устойчивость), многофункциональные транспозоны Тn7 и Тn554, конъюгативные транспозоны (способствующие собственному переносу из одной бактерии в другую совместно с частью хозяйской хромосомы; см. раздел 16.6.1.3), а также трансдуцирующий бактериофаг Мu.

Способы транспозиции. Процесс транспозиции включает в себя разрыв фосфодиэфирных связей на концах мобильного элемента и перенос последних на молекулу ДНК-мишени. Такая рекомбинационная реакция осуществляется с помощью тройственного нуклеопротеинового комплекса, или транспозосомы (англ. transpososome). Транспозосома состоит из транспозазы, концов мобильного элемента и ДНК- мишени. Транспозаза устроена таким образом, что N-конец полипептидной цепи обладает ДНК-связывающей активностью, а С-конец служит каталитическим доменом.

Существуют два основных способа транспозиции — консервативный и репликативный. В первом случае мобильный элемент в ходе транспозиции не копируется, а во втором копируется. Кроме того, в первом случае мобильный элемент физически обособляется от репликона-донора, а во втором случае остается прикрепленным к нему.

Консервативная транспозиция. Образное название этого способа — «разрежь и вклей» (англ. cut-and-paste). Иными словами, мобильный элемент вырезается из донорного сайта и без репликации вставляется в акцепторный сайт. Для этого транспозаза делает двухцепочечные разрезы в репликоне-доноре по концам мобильного элемента (рис. 170, I). Одновременно она делает одноцепочечные разрезы в сайте-мишени репликона-реципиента с образованием 5'-концевых выступов (рис. 170, II). Затем транспозаза катализирует реакцию трансэтерификации, и 5'-концы реципиента соединяются с 3'-концами донора (рис. 170, III).

После этого заполняются одноцепочечные участки ДНК в реципиенте (рис. 170, IV). Свободные 3'-концы служат праймерами для ведущих нитей двух репликационных вилок (см. раздел 16.4.1.1). Так возникают характерные прямые повторы, фланкирующие мобильный элемент.

Рис. 170. Консервативная транслокация мобильного элемента. Тонкие линии — репликон-донор; пунктирные линии — репликон-реципиент; толстые линии — мобильный элемент; черные треугольники — точки разрезов транс- поэазой; тонкие стрелки — заполнение одноцепочечных участков.

Примерами использования данного способа транспозиции служат инсерционные последовательности семейств IS10 и IS50, а также транспозон Тn7.

Образование потенциально летального разрыва в донорном репликоне предотвращается системами репарации двухцепочечной ДНК, которые осуществляют его рекомбинацию с сестринским донорным репликоном.

Репликативная транспозиция. Образное название этого способа — «разрежь и не зевай» (англ. cut-and-haste). Иными словами, мобильный элемент не вырезается из донорного сайта, а переносится в акцепторный сайт с образованием там репликационных вилок. В данном случае транспозаза наносит не двухцепочечные, а одноцепочечные разрезы в репликоне-доноре по 3'- концам мобильного элемента (рис. 171, I). Одновременно с этим она производит одноцепочечные разрезы в сайте-мишени репликона-реципиента с образованием 5'-концевых выступов (рис. 171, II). Затем транспозаза катализирует реакцию трансэтерификацни, 5'-концы реципиента соединяются с 3'-концами донора (рис. 171, III). и образуется Х-образный «интермедиат Шапиро» (назван в несть американского микробиолога J. Shapiro, который в 1979 г. предложил модель репликативной транслокации). После этого с помощью двух репликационных вилок заполняются одноцепо-

чечные участки ДНК в реципиенте, а также реплицируется сам мобильный элемент. Как и при консервативной транспозиции, свободные 3'-концы реципиента служат праймерами.

Рис. 171. Репликативная транслокация мобильного элемента.

Тонкие линии — репликон-донор; пунктирные линии — репликон- реципиент; толстые линии — мобильный элемент; треугольники — точки разрезов транспозазой; тонкие стрелки — заполнение одноцепочечных участков.

Если транспозиция происходит между двумя разными репликонами, то после репликации из них образуется кольцевой коинтеграт, в котором между репликоном-донором и репликоном-мишенью находятся две одинаково ориентированные копии мобильного элемента (рис. 171, IV). Затем коинтеграт разделяется на репликон-донор и репликон-реципиент (рис. 171, V). Для этого используется резольваза (см. раздел 16.4.2), открытая рамка считывания которой присутствует в самом мобильном элементе. Резольваза осуществляет сайтспецифичную рекомбинацию в IRS-сайте (сокр. англ. internal resolution site), расположенном в мобильном элементе между генами tnpA и tnpR. При отсутствии резольвазы в ход пускается клеточная RecA-зависимая система гомологической рекомбинации (см. раздел 16.6.1.2).

Примерами использования такого способа транспозиции служат инсерционные последовательности семейства IS6, а также транспозон Тn3.

Значение мобильных элементов. Мобильные элементы кодируют, помимо агентов собственной транспозиции, факторы экологической адаптации, обеспечивающие «вспомогательные» функции — устойчивость к антибиотикам и другим антибактериальным агентам, катаболизм нетривиальных субстратов (в частности, ксенобиотиков), вирулентность и токсичность, а также контроль экспрессии соседних с ними генов хозяйского генома.

Связь между мобильными элементами и вирулентностью наиболее ярко выражена у патогенов животных (Bordetella spp., Campylobacter spp., Clostridium spp., Haemophilus spp., Vibrio spp., Yersinia spp. и др.), а также у симбионтов растений (Agrobacterium tumefaciens, Erwinia spp., Pseudomonas spp., Rhizobium spp. и др.).

Мобильные элементы могут встраиваться в разные и многочисленные сайты хромосом или плазмид, вызывая инсерционные мутации. Имея промоторные участки, они могут влиять на транскрипцию находящихся правее (downstream) геномных генов. Цис- и транс-расположенные копии мобильных элементов участвуют в сайтс- пецифичной рекомбинации, обеспечивал разнообразные геномные перестройки.

Внедрение мобильного элемента в геномную ДНК изменяет структурную организацию и экспрессию прокариотных генов с частотой, близкой к частоте спонтанных мутаций (10^-5-10^-7на генерацию), а иногда значительно большей (до 10^-3). В отличие от точечных мутаций, изменения затрагивают большие участки ДНК и поэтому резко ускоряют мутационный процесс, способствуя эволюции геномов.

К числу геномных перестроек, вызванных мобильными элементами, в первую очередь относятся вставки (рис. 172, А). Их эффект компенсируется редко происходящим вырезанием мобильного элемента (рис. 172, Б). Вставка обычно приводит к инактивации гена, хотя в отдельных случаях благодаря ей появляется новый промотор, вызывающий экспрессию критического гена.

Рис. 172. Геномные перестройки, вызываемые мобильными элементами. А — вставка мобильного элемента; Б — вырезание мобильного элемента; В — делеция участка геномной ДНК; Г — инверсия участка геномной ДНК; Д — дупликация участка геномной ДНК; Е — образование составного транспозона.

Важное эволюционное значение имеют делеции участка геномной ДНК, примыкающего к одному из концов мобильного элемента (рис. 172, В).

Если в геноме появляются два противоположно ориентированных мобильных элемента, они могут рекомбинировать между собой, что приводит к инверсии лежащего между ними участка геномной ДНК (рис. 172, Г).

В случае, когда два одинаково ориентированных мобильных элемента фланкируют участок геномной ДНК, возможна его дупликация (рис. 172, Д).

Наконец, транслокация участка геномной ДНК вместе с фланкирующими мобильными элементами приводит к образованию составного транспозона (рис. 172, Е).

Поскольку мобильные элементы передаются горизонтальным путем и часто входят в состав плазмидных векторов, они быстро распространяются в природных популяциях бактерий. Чаще всего они передаются при конъюгации, реже при трансформации и еще реже — при трансдукции (см. раздел 16.6.1.3).

Как мы уже отмечали, транспозоны кодируют многие факторы экологической адаптации. В частности, транспозоны субгруппы Тn21 обеспечивают распространение множественной лекарственной устойчивости, которая имеет огромное значение при госпитальных инфекциях.

16.3.1.4. Интроны

Согласно классическому принципу колинеарности, порядок расположения нуклеотидных триплетов в матричной ДНК, а также в ее транскрипте — мРНК, соответствует порядку расположения аминокислотных остатков в продукте трансляции — полипептидной цепи. Однако в 1977 г. было установлено, что многие (хотя далеко не все) ядерные гены преимущественно состоят из последовательностей, которых нет в мРНК и которые удаляются при созревании первичного транскрипта. Иначе сказать, гены эукариотов мозаичны и состоят из двух типов нуклеотидных последовательностей. Во-первых, это кодирующие экзоны (англ. exon; от греч. ехо — вне и греч. ontos — сущее; «нечто, находящееся снаружи»), которые транскрибируются в мРНК, рРНК или тРНК. Во-вторых, это некодирующие интроны (англ. intron; от лат. intra — внутри и греч. ontos — сущее; «нечто, находящееся внутри»), которые разбросаны в промежутках между экзонами.

При транскрипции с молекулы ДНК считывается пре-мРНК, пре-рРНК или пре- тРНК, т. е. колинеарная копия мозаичного гена (англ. split gene — разрезанный ген). Из нее после сплайсинга (англ. splice — сращивать концы), который заключается в удалении интронов и ковалентном соединении друг с другом экзонов, образуется зрелая РНК.

Таким образом, колинеарность соблюдается не между геном, мРНК и полипептидной цепью, а между экзонами и белком, а также между экзонами и процессированной рРНК или тРНК.

Мозаичная структура гена была впоследствии продемонстрирована у митохондрий и пластид. Однако до 1983 г. считали, что экзонно-интронную структуру имеют только геномы ядерных клеток, тогда как у прокариотов этого не бывает.

Гены ядерных клеток варьируют по числу и размеру интронных вставок. Границы интрона отмечены динуклеотидами GT... AG (правило «GT-AG»). Исключениями являются интроны митохондрий и хлоропластов, а также интроны дрожжевой тРНК, что связано с многообразием механизмов сплайсинга.

Известны три основных типа сплайсинга; все они связаны с разрывом фосфодиэфирных связей на границе экзона с интроном и образованием новых фосфодиэфирных связей между концами интронов.

Сплайсинг первого типа, или белокнезависимый автосплайсинг (англ. self-splicing) осуществляется с помощью самой РНК. При процессинге она играет роль РНК-фермента, или рибозима.

Сплайсинг второго типа также представляет собой автосплайсинг, однако он нуждается в матуразе (от англ. mature — зрелый) — вспомогательном белке, который связывается с интроном и стимулирует рибозимную реакцию.

Сплайсинг третьего типа осуществляется с помощью белковых ферментов — сайтспецифичной РНК-эндонуклеазы и РНК-лигазы.

В настоящее время установлено, что мозаичная структура гена не является привилегией ядерных клеток, и что интроны нередко встречаются у бактерий и архей.

Прокариотные интроны сильно варьируют по размеру (от 15 до >3000 п. н.). Они локализуются в хромосомах, плазмидах или фагах. В соответствии со спецификой первичной и вторичной структуры, а также по способу сплайсинга они подразделяются на три группы: бактериальные интроны группы-1, бактериальные интроны группы-II и интроны архей.

Некоторые прокариотные интроны содержат открытые рамки считывания, которые находятся в трансляционной фазе с upstream-экзоном. Одни из них кодируют ДНК-специфичные эндонуклеазы, или транспозазы. Другие открытые рамки считывания кодируют обратные транскриптазы, или ревертазы, считывающие последовательности ДНК с матрицы РНК (см. раздел 16.7.2). С помощью транспозаз и ревертаз осуществляется хоуминг (англ. homing — возвращение домой), или сайтспецифичное внедрение интрона в лишенные интрона аллели гена. Это обеспечивает мобильность интронов между гомологичными участками одного генома или двух разных геномов. Третьи открытые рамки считывания кодируют матуразы, которые стимулируют автосплайсинг (см. выше).

Присутствие открытых рамок считывания противоречит ранним представлениям о неинформативной природе интронов. Однако легко заметить, что инграинтронные гены, так же, как и гены инсерционных последовательностей (см. выше) отличаются от обычных белок-кодирующих генов тем, что не выражаются фенотипически и отвечают только за эгоистическую судьбу самих интронов.

Бактериальные интроны группы-I. Интроны этой группы имеются у представителей филы ВХ Cyanobacteria и филы BXII Proteobacteria (табл. 21). Белок- кодирующих генов они не прерывают, а находятся только внутри генов тРНК.

Интроны группы-1 удаляются из пре-тРНК путем автосплайсинга в результате двух последовательных реакций трансэтерификации. Инициатором служит гуанозиновый кофактор, который в итоге оказывается на 5'-конце выщепленного интрона (рис. 173, А). В ходе первой реакции 3'-ОН группа гуанозинового кофактора осуществляет нуклеофильную атаку на 5'-конец интрона. В ходе второй реакции 3'-ОН группа 5'-экзона атакует 3'-конец интрона, в результате чего происходит лигирование экзонов и освобождается интрон.

Рис. 173. Механизмы сплайсинга у прокариотов. А — рибозимный автосплайсинг интрона группы-1; Б — рибозимный автосплайсинг интрона группы-II; В — сплайсинг у архей, катализируемый белковыми ферментами.

Черными треугольниками обозначены сайты разреза РНК-эндонуклеазой.

Бактериальные интроны группы-II. Интроны этой группы довольно редки и обнаружены только у цианобактерии Calothrix sp., а также у протеобактерии Xylella fastidiosa и фирмикута Lactobacillus lactis (табл. 21). Они прерывают белок- кодирующие гены.

Таблица 21. Примеры интронов у прокариотов

Фила	Объект	Локализация и число интронов
Интроны группы-1
ВХ Суanobacteria	Аnabaena sрр., Fisherella sрр., Phormidium sрр., Рleurocapsa sрр., Nostoc sрр., Scytonema sрр., Synechococcus sрр.	Ген тРНК^Lеu (1)
	Dermocarpa sрр, Scytonema sрр. Synechocystis sрр.	Ген тРНКf^Меt (1)
ВХIIРroteobacteria	Аgrobacterium tumefaciens	Ген тРНК^Аrg (1)
ВХIIРroteobacteria	Аzoarcus sрр.	Ген тРНК^IIе(1)
Интроны группы-II
ВХ Суanobacteria	Саlothrix sрр.	Ген SSВ-белка (1)
ВХIIРroteobacteria	Xylella fasidiosa	Ген ДНК-метилтрансферазы (1)
ВХIII Firmicutes	Lactobacillus lactis	Плазмидный ген mobА(1)
Интроны архей
	Desulfurococcus mobilis	Ген 23S рРНК (1)
АI Сrenarchaeota	Pyrobaculum aerophilum	Ген 16S рРНК (1)
АI Сrenarchaeota	Staphylothermus marinus	Ген 23S рРНК (2)
	Thermoproteus neutrophilus	Ген 16S рРНК (2-5)
АII Еuryarchaeota	Наlobacterium volcanii	Ген тРНКTrр (1)

В бесклеточных препаратах интроны группы-II способны к белокнезависимому автосплайсингу. Однако в условиях in situ рибозимная реакция требует участия матуразы, которая закодирована в самом интроне.

Реакции трансэтерификации здесь иные, чем при сплайсинге интронов группы-1 (рис. 173, Б). В ходе первой реакции 2'-ОН группа аденозина, расположенного близко к 3'-концу интрона, атакует 5'-конец интрона, в результате чего образуется связь 2'-5'. В ходе второй реакции 3'-ОН группа 5'-экзона атакует 3'-конец интрона; происходит лигирование экзонов и освобождается интрон, имеющий форму петли лассо (англ. lariat).

Интересно, что такие же две реакции трансэтерификации используются при ядерном сплайсинге. Такой рибозимный процесс осуществляется с помощью рибонуклеопротеинового комплекса — сплайсосомы (англ. spliceosome), состоящего из небольших ядерных snPHK (сокр. англ. small nuclear) пяти типов — U1, U2, U4, U5 и U6, а также из ~50 белковых компонентов. Предполагается, что в данном случае каталитический центр сплайсинга формирует РНК, входящая в состав сплайсосомы.

Интроны архей. Интроны этой группы обнаружены у нескольких представителей филы АI Сrenarchaeota и филы АII Еuryarchaeota. Белоккодирующих генов они не прерывают, а находятся внутри генов рРНК и тРНК.

В данном случае вместо рибозимного автосплайсинга осуществляется сплайсинг, котрый катализируют белковые ферменты. Фосфодиэфирные связи на границе экзона с интроном разрываются с помощью сайтспецифичной РНК-эндонуклеазы, и новые связи между концами интронов образуются с помощью РНК-лигазы.

На первом этапе эндонуклеаза разрезает первичный транскрипт в двух петлевых участках с образованием 2^/,3'-циклических фосфатов и 5'-ОН (рис. 173, В). На втором этапе присходит лигирование экзонов.

РНК-лигаза обладает одновременно четырьмя активностями: киназной (для фосфорилирования 5'-конца правого экзона за счет ГТФ), цикло-фосфодиэстеразной (для раскрывания 2',3'- циклического фосфата на 3'-конце левого экзона с образованием 2'-фосфата), аденилатсинтетазной (для аденилирования 3'-конца левого экзона и активации лигазной активности за счет АТФ) и собственно РНК-лигазной (для ковалентного соединения левого и правого экзонов). Образовавшийся в месте соединения экзонов 2'-фосфат удаляется с помощью 2'-фосфотрансферазы, которая передает фосфорильную группу НАД.

Причины существования интронов у бактерий и архей неясны, особенно если учесть, что генетической стратегией прокариотов является уменьшение размера генома с целью быстроты репликации.

С одной стороны, интроны могут отражать крайний случай паразитизма, когда вертикальная и горизонтальная экспансия «эгоистической» ДНК не требует самостоятельного фенотипического выражения.

С другой стороны, нитроны, особенно способные к автосплайсингу, могут представлять собой молекулярные ископаемые, сохранившиеся от первобытного «мира РНК» (см. I том учебника).

16.3.2. Некодирующие участки

Наряду с генами в прокариотный геном входят ~10% некодирующих участков. Такие нуклеотидные последовательности находятся либо внутри генов, либо в промежутках между ними.

Хотя некодирующие участки генома не транскрибируются в рРНК и не транслируются в белок, т. е. фенотипически не экспрессируются, они выполняют ряд жизненно важных функций. Это участие в репликации, индукция и проведение внутригеномных перестроек ДНК, а также регуляция экспрессии генов.

В предыдущем разделе мы уже упоминали нетранскрибируемые контролирующие генетические элементы — промотор, оператор и терминатор.

На нетранскрибируемых участках генома, которые принимают непосредственное участие в механизмах репликации хромосом и плазмид, мы еще подробно остановимся в разделах 16.4.1.1 и 16.4.1-2.

В настоящем разделе мы рассмотрим два типа некодирующих участков генома:

— повторяющиеся последовательности;

— внутренние транскрибируемые спейсеры.

16.3.2.1. Повторяющиеся последовательности

Повторяющиеся последовательности являются наиболее разнообразрным типом некодирующих повторяющихся элементов.

В прокариотных репликонах широко представлены повторяющиеся элементы. В соответствии со способностью или неспособностью определять первичную структуру белка/РНК они подразделяются на две большие группы — транскрибируемые и нетранскрибируемые.

Транскрибируемые элементы (англ. transcribed element), в зависимости от их неспособности или способности изменять свою локализацию в пределах репликона, можно подразделить на иммобильные и мобильные. Иммобильные транскрибируемые элементы представлены низкокопийными генами, в частности генами множественных rrn-оперонов (см. раздел 16.3.1.2), множественными генами тРНК, а также rhs-генами, ответственными за дупликации в хромосоме Е. coli К-12. Мобильные элементы представлены инсерционными последовательностями и транспозонами (см. раздел 16.3.2.1).

Нетранскрибируемые элементы (англ. noncoding element) представлены локально сконцентрированными повторами (англ. repeat) и повторяющимися последовательностями (англ. repeated sequence). Повторы по своей ориентации подразделяются на прямые и инвертированные. Примерами повторов служат АТ-богатые последовательности и DnaA-боксы, сосредоточенные в хромосомном локусе oriC (см. раздел 16.4.1.1), инвертированные повторы в хромосомном локусе terC (см. там же), а также итероны в плазмидном локусе oriV(см. раздел 16.4.1.2). Повторяющиеся последовательности имеют относительно небольшую длину (преимущественно <200 п.н.) и равномерно рассредоточены между более длинными однокопийными генными последовательностями.

Повторяющиеся последовательности имеются в геномах всех живых существ и составляют их заметную часть. Например, в гаплоидном геноме человека (3 • 10⁹ п. н.) около 3-6% приходятся на 3 • 10⁵ копий повторяющейся последовательности Alu, длина которой 300 п. н.

Вначале считали, что повторяющиеся последовательности существуют только в хромосомах эукариотов. Позднее они были найдены у бактерий и архей.

Функции повторяющихся последовательностей у прокариотов точно не известны. Неясно, каким образом они произошли, каким путем распределились внутри репликонов, а также как поддерживается их взаимная гомология. Тем не менее, большое разнообразие и широкое распространение повторяющихся последовательностей косвенно указывают на то, что они важны для структуры и эволюции геномов.

Таким образом, повторяющиеся последовательности принадлежат к классу некодирующих генетических элементов, имеют относительно небольшой размер и расположены в промежутках между структурными генами. У разных прокариотов они различаются по размеру (короткие или длинные), по структуре (в частности, бывают палиндромными), а также по взаимной группировке (одиночные, тандемные или объединенные в кластеры) и взаимной ориентации (прямые или инвертированные). В некоторых случаях повторяющиеся последовательности одинакового или неодинакового типа занимают аналогичное положение на хромосомах разных объектов.

Короткие повторяющиеся последовательности. «Короткими» условно называются последовательности длиной <100 п. н., хотя в этот размерный интервал попадают генетические элементы, значительно различающиеся своими свойствами (табл. 20).

REP (сокр. англ. repetitive extragenic palindrome; синоним — palindromic unit, PU). Это наиболее распространенные и лучше всего изученные короткие повторяющиеся последовательности. REP-элементы, впервые обнаруженные в 1982 г. у Е. coli и S. entérica серовар Typhimurium, представляют собой палиндромы длиной 38 п. н., которые расположены между цистронами или на концах 25% оперонов. Они присутствуют в количестве 500-1000 копий на хромосому, что эквивалентно ~1% генома, имеют разную взаимную ориентацию, образуют тандемы и собраны в кластеры размером до 10 копий каждый. В настоящее время REP- и REP-подобные элементы выявлены у представителей большинства бактериальных фил, а также у ряда архей (табл. 20). Предполагается, что REP-элементы полифункциональны. Они могут выступать в роли терминатора транскрипции и модифицировать ее паттерн, участвовать в репликации путем связывания с ДНК-гиразой и ДНК- полимеразой Pol I, способствовать компактизации хромосомы за счет образования сверхскрученных петлевых «доменов» (см. I том учебника), а также обеспечивать хромосомные перестройки, в частности путем гомологической рекомбинации.

Ng-rep (сокр. англ. Neisseria gonorrhoeae repeat). Эти, а также подобные им элементы длиной 26 п.н., характерны для N. gonorrhoeae, N. meningitidis и ряда других бактерий.

DUS (сокр. англ. DNA uptake sequence). Эти элементы обеспечивают высокую эффективность внутривидовой трансформации Haemophilus influenzae и N. gonorrhoeae (см. разделов.6.1.3).

Chi (сокр. англ. crossover hot spot initiation). Данный некодирующий октамерный элемент, имеющий структуру 5'-GCTGGTGG-3', широко, если не универсально, распространен у прокариотов. Он создает в репликоне «горячие точки» и провоцирует recBCD-опосредованную рекомбинацию (см. раздел 16.6.1.2). Кроме того, предполагается, что содержащийся в этом сайте триплет CTG связывает праймазу DnaG, которая синтезирует РНК-праймеры для фрагментов Оказаки (см. раздел 16.4.1.1).

Rag (сокр. англ. resolution atG — устранение димеров в G-богатом участке). Этот некодирующий октамер имеет вариабельную структуру 5'-RGNAAGGGS-3' (R обозначают А или T, N — одно из канонических оснований, S—С или G). Rag-элементы расположены рядом с локусом ter и фланкируют сайт dif, по которому проходит сайстспецифичная рекомбинация с целью устранения хромосомных димеров (см. раздел 16.4.2).

STRR (сокр. англ. short tandemly repeated repetitive) и Hip1(сокр. англ. highly iterated palindromic; от лат. iteratio — повторение). Образующие гетероцисты цианобактерии содержат три варианта STRR-последовательностей размером 7 п. н. В частности, в геноме Calothrix spp. число их копий достигает 100. В свою очередь, Hipl-последовательности широко, хотя и не универсально, представлены у цианобактерий.

LTRR (сокр. англ. «long» tandemly repeated repetitive). Вопреки своему названию, это относительно низкокопийная последовательность, длиной 37 п. н. Помимо Anabaena sp. РСС 7120, она обнаружена еще у нескольких нитчатых цианобактерий, с гетероцистами или без них.

DR (сокр. англ. direct repeat). В хромосоме Mycobacterium bovis штамм BCG содержится высококонсервативный локус, состоящий из 49 прямых повторов размером 36 п. н., разделенных уникальными последовательностями, каждая длиной 35-41 п. н. Этот кластер служит «горячей точкой» для интеграции инсерционной последовательности IS6110 (см. раздел 16.3.2.1).

MPTR (сокр. англ. major polymorphic tandem repeats). Этот кластер обнаружен у микобактерий М. kansasii и М. gordonae. По структуре он напоминает DR-кластер М. bovis штамм BCG и состоит из декамерных прямых повторов 5'-GCCGGTGTTG-3', которые разделены уникальными спейсерами длиной 5 п. н. Число копий MPTR-последовательности на один геном достигает 80.

Длинные повторяющиеся последовательности. «Длинными» условно считаются последовательности размером >100 п. н. Подобно коротким последовательностям, они сильно различаются своими свойствами (табл. 20).

Таблица 20. Примеры повторяющихся последовательностей у прокариотов

Последовательность Размер, п. н. Число Объект Короткие
REP	30-38	150-1000	Многие бактерии; археи Archaeoglobus fulgidus, Haloferax mediterranei, H. volcanii, Methanococcus jannashii, Pyrococcus spp., P. furiosus
LTRR	37	8-10	Ряд нитчатых цианобактерий
DR	36	49	Mycobacterium bovis BCG
Ng-rep	26	-	Neisseria gonorrhoeae
MPTR	10	80	M. kansasii, M. gordonae
DUS	9-10	2000	Haemophilus influenzae, N. gonorrhoeae
Chi	8	-	Большинство прокариотов
Rag	8	-	Большинство бактерий
Hipl	8	> 20	Многие цианобактерии
STRR	7	100	Ряд цианобактерий, образующих гетероцисты
Длинные
ВIMЕ	> 100	500	Е. coli
Mx-rep	> 100	-	Myxococcus xanthus
ERIC	126	-	Многие бактерии
DR-rep	150-192	-	Deinococcus radiodurans SARK
Rep MP1	300	8-10	Mycoplasma pneumoniae
SDC1	400	8-10	M. pneumoniae
RLEP	545	28	M. leprae
PGRS	700-1300	26-30	Микобактерии туберкулезного комплекса

-данные отсутствуют.

BIME (сокр. англ. bacterial interspersed mosaic elements). BIME-элементы представляют собой REP-элементы, мозаично сгруппированные вместе с другими типами повторяющихся последовательностей. В хромосоме Е. coli их насчитывается до 500, примерно по одному на каждые шесть генов.

ERIC (сокр. англ. enterobacterial repetitive intergenic consensus; синоним — intergenic repeat unit, IRU). Первоначально они были описаны в 1990 г. на примерю Е. coli, S. entericaсеровар Typhimurium и других Enterobacteriaceae. Затем оказалось, что они широко распространены у представителей домена Bacteria. Это инвертированные повторы длиной 126 п. н.

Dr-rep (сокр. англ. Deinococcus radiodurans repeat). Данная высококонсервативная повторяющаяся последовательность длиной 150-192 п.н. характерна для радиоустойчивого микрококка D. radiodurans штамм SARK (см. I том учебника). На обоих своих концах она содержит два инвертированно повторенных участка.

Мх-rep (сокр. англ. Myxococcus xanthus repeat). Этот элемент, ядро которого имеет длину 87 п. н., характерен для миксобактерии М. xanthus. Интересно, что один из его повторов занимает такое же положение, как и REP-элемент Е. coli — правее (downstream) гена rpoD, кодирующего σ⁷⁰-субъединицу РНК-полимеразы.

RepMPl (сокр. англ. repeat of Mycoplasma pneumoniae) и SDCl (сокр. англ. small direct consensus). Эти повторяющиеся последовательности описаны на примере Mycoplasmapneumoniae. Они имеют длину, соответственно, 300 и 400 п. н. и присутствуют в количестве 8- 10 копий на хромосому, что составляет до 6% генома. Сходные с ними, но более крупные элементы имеют размер 1,1-2,2 т. п. н.

PGRS (сокр. англ, polymorphic GC-rich repetitive sequence). Повторяющиеся последовательности этого типа, построенные на основе прямого тандемного повтора 5'-CGGCGGCAA-3' и поэтому содержащие до 80% GC-nпap, широко распространены у микобактерий «туберкулезного» комплекса (М. africanum, М. bovis, М. microti и М. tuberculosis), хотя встречаются и у других микобактерий. PGRS имеют размер 700-1300 п. н. и представлены 26-30 копиями. Высокий полиморфизм PGRS позволяет широко использовать результаты их сравнительного анализа в молекулярной эпидемиологии. По характеру консенсусной последовательности, копийности и спектру хозяев PGRS обнаруживают сходство с MPTR.

RLEP (сокр. англ. repeat of Mycobacterium leprae). До 28 копий этого повтора, состоящего из центрального консервативного домена размером около 545 п. н. и вариабельных концов, находятся в разных участках генома возбудителя проказы М. leprae. На выявлении RLEP в биоптатах основан быстрый и чувствительный метод идентификации бацилл проказы.

В настоящее время специфические повторяющиеся последовательности небольшой длины используются в качестве праймеров при проведении полимеразной цепной реакции (rep-PCR). Спектры полученных амплификонов служат одним из критериев таксономии, а также позволяют оценить разнообразие «природных» ДНК (см. I том учебника).

16.3.2.2. Внутренние транскрибируемые спейсеры

Как уже отмечалось, в прокариотном rrn-опероне между генами 16S рРНК и 23S рРНК во многих случаях находится внутренний транскрибируемый спейсер (англ. internal transcribedspacer, ITS).

Продуктом транскрипции rrn-оперона (см. раздел 16.3.1.2) является пре-рРНК, которая содержит последовательности рРНК всех трех типов, а также последовательность 16S-23SITS.

При первичном процессинге РНКаза III разрезает пре-рРНК на три части — пре- 16S рРНК, npe-23S рРНК и пpe-5S рРНК в блоке с транскрибируемой последовательностью 16S-23SITS. При вторичном процессинге из них образуются зрелые молекулы 16S рРНК, 23S рРНК, 5S рРНК и тРНК (рис. 174). Важную роль в процессинге пре-рРНК играют спейсерные участки, расположенные между последовательностями рРНК.

Путем анализа вторичной структуры пре-рРНК было установлено, что в первичном транскрипте комплементарные сайты спариваются друг с другом, образуя два двухцепочечных стебля, которые несут на концах непроцессируемые 16S рРНК и 23S рРНК (рис. 174).

Рис. 174. Первичный транскрипт оперона рибосомных РНК. Черными треугольниками обозначены сайты разреза РНК-азой III.

Преждевременная терминация транскрипции в области 16S-23S ITS предотвращается сайтами-антитерминаторами, которые называются «боксами» А и В. Бокс А имеет более консервативную нуклеотидную последовательность, чем бокс В.

Часто, хотя и не обязательно внутри 16S-23S ITS содержатся гены тРНК. Это либо ген тРНК^Alа (или tPHK^Glu), либо ген тРНК^Ala совместно с геном тРНК^IIе. Присутствие встроенных генов тРНК увеличивает молекулярный полиморфизм 16S-23S ITS.

В последнее десятилетие данные об инфраструктуре rrn-оперона все чаще используются при классификации прокариотов (к середине 2003 г. в банках данных депонировано свыше 2,5 • 10³ последовательностей 16S-23S ITS). Дело в том, что «разрешающая сила» такого универсального критерия, как степень гомологии 16S рРНК, ослабевает применительно к филогенетическим таксонам низкого ранга. Эволюция высоко консервативных генов рРНК не обязательно отражает истинную межвидовую дивергенцию; напомним, что границей вида условно считается не менее 97% сходства последовательностей 16S рДНК (см. I том учебника).

16S-23S ITS более вариабельны, чем гены рРНК. Но в то же время они достаточно консервативны, чтобы стать надежным критерием филогении. Поэтому размер и нуклеотидная последовательность 16S-23S ITS все шире учитываются в систематике бактерий и архей при разграничении видов и более мелких внутривидовых единиц, в частности, при типировании штаммов.