ШІ навчився читати білки, як текст і це змінює всю біологію

20.03.2026 10:49

Коли у 2021 році AlphaFold передбачив тривимірну структуру практично будь-якого білка за його послідовністю амінокислот, вчені отримали відповідь на питання «як виглядає білок». Але залишалося інше, не менш складне питання: як прочитати послідовність невідомого білка з нуля, не знаючи, що це за молекула і чи є вона взагалі в будь-якій базі даних? Саме цю задачу вирішує нова ШІ-система InstaNovo, описана у Nature Machine Intelligence і широко обговорена науковою спільнотою протягом 2025–2026 років.

Що відомо коротко

InstaNovo і InstaNovo+ — дві ШІ-моделі для de novo секвенування пептидів, розроблені компанією InstaDeep спільно з Технічним університетом Данії (DTU)
Ключова інновація: система не потребує бази даних — вона «читає» амінокислотну послідовність безпосередньо зі спектра мас-спектрометрії
InstaNovo+, заснована на дифузійній моделі (як DALL-E або Stable Diffusion), ітеративно уточнює результат — і на 42% краще знаходить пептиди порівняно з попереднім лідером Casanovo
Вже застосована: виявлення патогенів у ранах, нові пептиди для імунотерапії раку, ідентифікація невідомих організмів у зразках морської води
Еволюційні біологи використовують подібні інструменти для читання стародавніх білків з кісток неандертальців і вимерлих тварин
Порівняння з геномікою: 250 мільйонів відомих білкових послідовностей і лише 210 тисяч з підтвердженою тривимірною структурою

Чому секвенування білків так складно

ДНК складається з чотирьох нуклеотидів і секвенується рутинно з 1990-х. Білки — це зовсім інша проблема. Вони побудовані з 20 різних амінокислот у нескінченних комбінаціях. Навіть невеликий білок із 100 амінокислот теоретично може мати 20¹⁰⁰ варіантів послідовності — більше, ніж атомів у видимому Всесвіті. Крім того, функція білка залежить не лише від його послідовності, а й від пост-трансляційних модифікацій — хімічних змін після синтезу, які надзвичайно важко виявити.

Традиційний метод, мас-спектрометрія, «зважує» фрагменти білка і за масами намагається відновити послідовність. Але коли фрагмент не відповідає жодному запису в базі даних — все, глухий кут. А такі ситуації трапляються постійно: при роботі з неохарактеризованими організмами, пошкодженими стародавніми зразками або принципово новими мутованими білками.

Саме тут і розкривається потужність підходу без баз даних (de novo).

Як InstaNovo «перекладає» спектри в послідовності

InstaNovo — це трансформерна мережа (аналогічна до GPT), навчена на 28 мільйонах мічених мас-спектрів із бази ProteomeTools. Вона «перекладає» пікові профілі спектра в ланцюжок амінокислот так само, як мовна модель перекладає текст — розпізнаючи контекст і найймовірнішу наступну «букву».

Останні новини: Знайдено новий вид сліпої рибки і переписано закон еволюції

Технічна деталь, що відрізняє InstaNovo від попередників: алгоритм Knapsack Beam Search — пошук, що одночасно перевіряє кілька можливих послідовностей і відкидає ті, чия маса не збігається з виміряною масою прекурсорного іона. Це різко знижує частку хибних спрацьовувань.

InstaNovo+ іде далі. Ця дифузійна модель (технологія, що революціонізувала ШІ-генерацію зображень) починає з попереднього прогнозу або навіть випадкового набору амінокислот — і поступово «знімає шум», щоразу наближаючись до реальної послідовності. Результат: InstaNovo+ покриває послідовність цілісно, а не по одній амінокислоті, що дозволяє знаходити складні та нетипові пептиди.

Реальні застосування вже сьогодні

Патогени в ранах. Команда застосувала InstaNovo до рідини з ран пацієнтів і ідентифікувала щонайменше трьох збудників інфекції — без жодної попередньої інформації про мікробний склад. Стандартні методи підтвердили результат. «Ми були здивовані, як легко вдалося їх виявити», — прокоментував Константінос Калогеропулос, співавтор розробки з DTU.

Нові пептиди для імунотерапії раку. На поверхні ракових клітин є особливі пептиди, що допомагають імунній системі «впізнати» пухлину. InstaNovo знайшла тисячі нових таких пептидів, невидимих для традиційних методів. Кожен із них — потенційна мішень для персоналізованої імунотерапії.

Невідомі організми в морській воді. Зразки зі складним мікробним складом, де присутній широкий спектр невідомих організмів, давно є «тупиком» для класичних баз даних. InstaNovo ідентифікувала 254 нових пептиди і зіставила інші з 52 бактеріальними білками — більшість яких не мають аналогів у існуючих каталогах.

Час-дорожня машина для стародавніх білків

Особливо захоплює застосування таких інструментів у палеопротеоміці — науці про стародавні білки з викопних решток.

Якщо ДНК розкладається за десятки тисяч років, то деякі білки (особливо в кістках і зубній емалі) зберігаються мільйонами років. Уже зчитані білки з зубів Homo erectus (1,77 млн років) та страусових яєць (3,8 млн років). Проблема — ці молекули хімічно пошкоджені, деградовані, зовсім не схожі на «сучасні» версії та часто відсутні в будь-яких базах.

Метью Коллінз із Кембриджського університету тестує ШІ-інструменти для аналізу таких зразків і називає їх «особливо корисними для брудних середовищ, де невідомо, що там є». Уже вдалося знайти сліди кролячих білків на стоянках неандертальців і залишки рибних м’язів у давніх поселеннях. Кожна така знахідка — підказка про раціон, середовище і ще невідомі аспекти нашої еволюційної спадщини від далеких предків.

Останні новини: ДНК із посліду розкрила походження гігантських слонів Анголи

Це особливо важливо у контексті більш ранніх досліджень, де хіміки відтворювали умови зародження життя на Землі і встановлювали, що РНК і перші білки могли з’явитися раніше за ДНК — тобто саме білки стояли в самому початку молекулярного живого. Здатність читати «мову білків» у будь-яких умовах, навіть у залишках мільйонолітніх організмів, наближає нас до розуміння цього витоку.

Біла пляма: «темний протеом»

За оцінками вчених, у геномі людини закодовано близько 20 000 генів. Але функції значної частини кодованих ними білків лишаються невідомими — це так зване «темний протеом» (dark proteome). Ще масштабніша проблема — у тисяч організмів, яких ніколи детально не вивчали: у морських безхребетних, мікробів ґрунту, стародавніх рослин. Їхні білки просто не представлені в базах.

Так само, як публікація пангенома людства відкрила нові горизонти в геноміці — показавши, що один референсний геном не відображає всього людського різноманіття — de novo протеоміка відкриває двері до протеомного різноманіття, про яке ми досі не здогадувалися.

Куди рухається поле

«Здається очевидним, що саме цей напрям і буде розвиватися», — підсумовує Вільям Нобль, дослідник ШІ в протеоміці з Університету Вашингтона. Але він і інші вчені попереджають: перехід від лабораторного демонстратора до реального клінічного або дослідницького інструменту — довгий шлях.

InstaNovo ще потребує донавчання для ідентифікації пост-трансляційних модифікацій і адаптації до даних з різних типів мас-спектрометрів. Виходи моделі часто потребують перевірки через таргетну протеоміку.

Проте напрям незворотний: DARPA запустила у лютому 2026 програму PROSE (PROtein SEquencing) — 36-місячний проект для розробки інтегрованих мікросистем, здатних читати довгі складні білки без будь-яких референсних баз. Фінансуються три команди: Electronic Biosciences, Kostas Research Institute та Pumpkinseed — і всі вони обіцяють революційний прорив у прочитанні молекул, що залишаються недоступними для сьогоднішніх технологій.

Цікаві факти

Людський організм містить близько 20 000 типів білків, але кожен ген може кодувати до 10–20 різних версій після сплайсингу і модифікацій — тобто реальний «білковий словник» людини становить сотні тисяч молекул
Мас-спектрометр в протеоміці — це по суті «молекулярні ваги» з роздільною здатністю до мільярдних часток грама. Саме ці «вагові відбитки» і вчиться «читати» InstaNovo
AlphaFold передбачив структури понад 200 мільйонів білків — майже всього відомого протеому Землі. Але більшість цих структур прогнозувались для відомих послідовностей. InstaNovo заповнює протилежну прогалину: зчитує послідовності там, де вони невідомі
Найдавніший білок, успішно секвенований із викопних решток — з 3,8-мільйонолітнього страусиного яйця зі стоянки в Кенії. Він ще не був ідентифікований ШІ, але такі спроби вже ведуться

Останні новини: Всесвіт може мати 18 форм: чому “плоский” космос не такий простий

FAQ

Чим InstaNovo відрізняється від AlphaFold? AlphaFold вирішує зворотну задачу: беручи відому послідовність амінокислот, він передбачає тривимірну структуру білка. InstaNovo вирішує протилежне: беручи сигнал мас-спектрометра (масові «відбитки» фрагментів), він відновлює послідовність амінокислот. Обидва разом — це потужне поєднання: прочитав послідовність (InstaNovo) → передбачив структуру (AlphaFold) → зрозумів функцію.

Що таке de novo секвенування і чим воно краще за стандартний пошук? Стандартний підхід порівнює виміряні мас-спектрометром «відбитки» пептидів із записами в базі даних. Якщо збігу немає — білок не ідентифікується. De novo підхід не потребує бази: він реконструює послідовність прямо зі спектра. Це відкриває можливість ідентифікувати абсолютно нові білки — з неохарактеризованих організмів, мутованих ракових клітин або давньо збережених зразків.

Чи можна вже використовувати InstaNovo в реальних клінічних умовах? Не повністю. Інструмент ще проходить тестування на великих наборах даних і потребує адаптації для різних типів мас-спектрометрів та для коректного розпізнавання пост-трансляційних модифікацій. Однак уже зараз він є цінним дослідницьким інструментом, особливо для аналізу мікробіому, пошуку нових пептидів для імунотерапії та палеопротеоміки.

Якщо кожна амінокислота в послідовності білка — це «буква», то читання невідомого білка без словника — це як відновити зміст книги, яку хтось спалив, лише за попелом і вагою фрагментів паперу. Саме це вміє робити InstaNovo — і поки вчені захоплюються, вона вже знаходить збудників хвороб у ранах та стародавні молекули вимерлих тварин, про існування яких ніхто не здогадувався.

ШІ навчився читати білки, як текст і це змінює всю біологію з’явилася спочатку на Цікавості.

cikavosti.com

Знайдено новий вид сліпої рибки і переписано закон еволюції

ДНК 10 000 стародавніх людей переписала еволюцію Євразії

Всесвіт може мати 18 форм: чому “плоский” космос не такий простий

ДНК із посліду розкрила походження гігантських слонів Анголи

Гігантський пояс водоростей в Атлантиці може поглинати CO₂ і давати паливо

Psyche показав Марс зблизька: NASA отримала фото й поштовх до астероїда