Международная группа исследователей добилась значительного прогресса в понимании того, как экспрессия генов регулируется в геноме человека. В недавнем исследовании они провели комплексный анализ цис-регуляторных элементов (CRE) – последовательностей ДНК, контролирующих транскрипцию генов. Это исследование дает ценную информацию о том, как CRE стимулируют экспрессию клеточно-специфических генов и как мутации в этих регионах могут влиять на здоровье и способствовать развитию заболеваний.
CRE, такие как энхансеры и промоторы, играют решающую роль в определении того, когда и где гены активируются или молчат. Несмотря на то, что их важность хорошо известна, анализ их деятельности в большом масштабе был продолжительным вызовом.
"Геном человека содержит множество CRE, и считается, что мутации в этих областях играют важную роль в заболеваниях человека и эволюции", - пояснил доктор Фумитака Иноуэ, один из первых авторов исследования. "Однако было очень трудно всесторонне количественно оценить их активность в геноме".
Инновационная технология обеспечивает широкомасштабный анализ CRE
Для решения этой проблемы команда использовала передовую технологию под названием «массовый параллельный репортерный анализ на основе лентивируса» (lentiMPRA), которую авторы разработали ранее. Этот подход позволяет одновременно анализировать тысячи CRE, обозначая их уникальными штрих-кодами ДНК, отслеживающими их активность.
Используя lentiMPRA, исследователи исследовали 680 000 кандидатов на CRE в трех широко используемых типах клеток: гепатоцитах (клетках печени), лимфоцитах (тип белых кровяных телец) и индуцированных плюрипотентных стволовых клетках (тип искусственных стволов). из нормальной клетки тела).
Исследование выявило несколько ключевых идей. Среди трех типов клеток примерно 41,7% проанализированных CRE проявили активность. Промоторы, начинающие транскрипцию генов, показали зависимость от ориентации последовательности, но были менее специфичны для типов клеток. Энхансеры, усиливающие транскрипцию генов, были активны независимо от их ориентации и проявляли специфичность клеточного типа. Эти выводы подчеркивают фундаментальные отличия в том, как функционируют эти два типа CRE.
Машинное обучение улучшает прогнозную регуляцию генов
В исследовании было разработано несколько моделей машинного обучения для прогнозирования регуляторной активности CRE на основе крупномасштабных экспериментальных данных. MPRALegNet, модель, обученная на огромном наборе данных lentiMPRA, оказалась наиболее точной и эффективной в предвидении регуляторной активности любой последовательности ДНК. Его прогнозы тесно согласуются с экспериментальными результатами, в некоторых случаях производятся так же хорошо, как экспериментальные повторы.
Модель также продемонстрировала свою способность идентифицировать важные мотивы связывания факторов транскрипции, т.е. как решающие для активности в гепатоцитах и лимфоцитах соответственно.
Обеспечивая точную идентификацию и количественную оценку активности усилителя, исследование открывает пути изучения молекулярных механизмов заболеваний человека. Будущие исследования будут сосредоточены на применении этого подхода для изучения генетических полиморфизмов, вариаций в последовательности ДНК, способствующих индивидуальным различиям и восприимчивости к заболеваниям.
«Недавно было секвенировано почти полный геном человека, но большинство его функциональных областей остаются неизвестными. Наши выводы связывают информацию о последовательности ДНК с ее функциональными ролями. Мы надеемся, что эти результаты будут способствовать более глубокому пониманию биологических явлений, включая болезни человека и эволюцию», — сказал доктор Иноуэ.
Это исследование также создает общедоступную базу данных о деятельности CRE на портале ENCODE, предоставляя ценный ресурс для исследователей по всему миру. Как lentiMPRA и MPRALegNet, поможет лучше подготовить исследователей к разгадыванию сложностей регуляции генов и исследование огромных неизведанных территорий генома человека