
Коли у 2021 році AlphaFold передбачив тривимірну структуру практично будь-якого білка за його послідовністю амінокислот, вчені отримали відповідь на питання «як виглядає білок». Але залишалося інше, не менш складне питання: як прочитати послідовність невідомого білка з нуля, не знаючи, що це за молекула і чи є вона взагалі в будь-якій базі даних? Саме цю задачу вирішує нова ШІ-система InstaNovo, описана у Nature Machine Intelligence і широко обговорена науковою спільнотою протягом 2025–2026 років.

Що відомо коротко
- InstaNovo і InstaNovo+ — дві ШІ-моделі для de novo секвенування пептидів, розроблені компанією InstaDeep спільно з Технічним університетом Данії (DTU)
- Ключова інновація: система не потребує бази даних — вона «читає» амінокислотну послідовність безпосередньо зі спектра мас-спектрометрії
- InstaNovo+, заснована на дифузійній моделі (як DALL-E або Stable Diffusion), ітеративно уточнює результат — і на 42% краще знаходить пептиди порівняно з попереднім лідером Casanovo
- Вже застосована: виявлення патогенів у ранах, нові пептиди для імунотерапії раку, ідентифікація невідомих організмів у зразках морської води
- Еволюційні біологи використовують подібні інструменти для читання стародавніх білків з кісток неандертальців і вимерлих тварин
- Порівняння з геномікою: 250 мільйонів відомих білкових послідовностей і лише 210 тисяч з підтвердженою тривимірною структурою
Чому секвенування білків так складно
ДНК складається з чотирьох нуклеотидів і секвенується рутинно з 1990-х. Білки — це зовсім інша проблема. Вони побудовані з 20 різних амінокислот у нескінченних комбінаціях. Навіть невеликий білок із 100 амінокислот теоретично може мати 20¹⁰⁰ варіантів послідовності — більше, ніж атомів у видимому Всесвіті. Крім того, функція білка залежить не лише від його послідовності, а й від пост-трансляційних модифікацій — хімічних змін після синтезу, які надзвичайно важко виявити.
Традиційний метод, мас-спектрометрія, «зважує» фрагменти білка і за масами намагається відновити послідовність. Але коли фрагмент не відповідає жодному запису в базі даних — все, глухий кут. А такі ситуації трапляються постійно: при роботі з неохарактеризованими організмами, пошкодженими стародавніми зразками або принципово новими мутованими білками.
Саме тут і розкривається потужність підходу без баз даних (de novo).
Як InstaNovo «перекладає» спектри в послідовності
InstaNovo — це трансформерна мережа (аналогічна до GPT), навчена на 28 мільйонах мічених мас-спектрів із бази ProteomeTools. Вона «перекладає» пікові профілі спектра в ланцюжок амінокислот так само, як мовна модель перекладає текст — розпізнаючи контекст і найймовірнішу наступну «букву».
Технічна деталь, що відрізняє InstaNovo від попередників: алгоритм Knapsack Beam Search — пошук, що одночасно перевіряє кілька можливих послідовностей і відкидає ті, чия маса не збігається з виміряною масою прекурсорного іона. Це різко знижує частку хибних спрацьовувань.
InstaNovo+ іде далі. Ця дифузійна модель (технологія, що революціонізувала ШІ-генерацію зображень) починає з попереднього прогнозу або навіть випадкового набору амінокислот — і поступово «знімає шум», щоразу наближаючись до реальної послідовності. Результат: InstaNovo+ покриває послідовність цілісно, а не по одній амінокислоті, що дозволяє знаходити складні та нетипові пептиди.
Реальні застосування вже сьогодні
Патогени в ранах. Команда застосувала InstaNovo до рідини з ран пацієнтів і ідентифікувала щонайменше трьох збудників інфекції — без жодної попередньої інформації про мікробний склад. Стандартні методи підтвердили результат. «Ми були здивовані, як легко вдалося їх виявити», — прокоментував Константінос Калогеропулос, співавтор розробки з DTU.
Нові пептиди для імунотерапії раку. На поверхні ракових клітин є особливі пептиди, що допомагають імунній системі «впізнати» пухлину. InstaNovo знайшла тисячі нових таких пептидів, невидимих для традиційних методів. Кожен із них — потенційна мішень для персоналізованої імунотерапії.
Невідомі організми в морській воді. Зразки зі складним мікробним складом, де присутній широкий спектр невідомих організмів, давно є «тупиком» для класичних баз даних. InstaNovo ідентифікувала 254 нових пептиди і зіставила інші з 52 бактеріальними білками — більшість яких не мають аналогів у існуючих каталогах.
Час-дорожня машина для стародавніх білків
Особливо захоплює застосування таких інструментів у палеопротеоміці — науці про стародавні білки з викопних решток.
Якщо ДНК розкладається за десятки тисяч років, то деякі білки (особливо в кістках і зубній емалі) зберігаються мільйонами років. Уже зчитані білки з зубів Homo erectus (1,77 млн років) та страусових яєць (3,8 млн років). Проблема — ці молекули хімічно пошкоджені, деградовані, зовсім не схожі на «сучасні» версії та часто відсутні в будь-яких базах.
Метью Коллінз із Кембриджського університету тестує ШІ-інструменти для аналізу таких зразків і називає їх «особливо корисними для брудних середовищ, де невідомо, що там є». Уже вдалося знайти сліди кролячих білків на стоянках неандертальців і залишки рибних м’язів у давніх поселеннях. Кожна така знахідка — підказка про раціон, середовище і ще невідомі аспекти нашої еволюційної спадщини від далеких предків.
Це особливо важливо у контексті більш ранніх досліджень, де хіміки відтворювали умови зародження життя на Землі і встановлювали, що РНК і перші білки могли з’явитися раніше за ДНК — тобто саме білки стояли в самому початку молекулярного живого. Здатність читати «мову білків» у будь-яких умовах, навіть у залишках мільйонолітніх організмів, наближає нас до розуміння цього витоку.
Біла пляма: «темний протеом»
За оцінками вчених, у геномі людини закодовано близько 20 000 генів. Але функції значної частини кодованих ними білків лишаються невідомими — це так зване «темний протеом» (dark proteome). Ще масштабніша проблема — у тисяч організмів, яких ніколи детально не вивчали: у морських безхребетних, мікробів ґрунту, стародавніх рослин. Їхні білки просто не представлені в базах.
Так само, як публікація пангенома людства відкрила нові горизонти в геноміці — показавши, що один референсний геном не відображає всього людського різноманіття — de novo протеоміка відкриває двері до протеомного різноманіття, про яке ми досі не здогадувалися.
Куди рухається поле
«Здається очевидним, що саме цей напрям і буде розвиватися», — підсумовує Вільям Нобль, дослідник ШІ в протеоміці з Університету Вашингтона. Але він і інші вчені попереджають: перехід від лабораторного демонстратора до реального клінічного або дослідницького інструменту — довгий шлях.
InstaNovo ще потребує донавчання для ідентифікації пост-трансляційних модифікацій і адаптації до даних з різних типів мас-спектрометрів. Виходи моделі часто потребують перевірки через таргетну протеоміку.
Проте напрям незворотний: DARPA запустила у лютому 2026 програму PROSE (PROtein SEquencing) — 36-місячний проект для розробки інтегрованих мікросистем, здатних читати довгі складні білки без будь-яких референсних баз. Фінансуються три команди: Electronic Biosciences, Kostas Research Institute та Pumpkinseed — і всі вони обіцяють революційний прорив у прочитанні молекул, що залишаються недоступними для сьогоднішніх технологій.
Цікаві факти
- Людський організм містить близько 20 000 типів білків, але кожен ген може кодувати до 10–20 різних версій після сплайсингу і модифікацій — тобто реальний «білковий словник» людини становить сотні тисяч молекул
- Мас-спектрометр в протеоміці — це по суті «молекулярні ваги» з роздільною здатністю до мільярдних часток грама. Саме ці «вагові відбитки» і вчиться «читати» InstaNovo
- AlphaFold передбачив структури понад 200 мільйонів білків — майже всього відомого протеому Землі. Але більшість цих структур прогнозувались для відомих послідовностей. InstaNovo заповнює протилежну прогалину: зчитує послідовності там, де вони невідомі
- Найдавніший білок, успішно секвенований із викопних решток — з 3,8-мільйонолітнього страусиного яйця зі стоянки в Кенії. Він ще не був ідентифікований ШІ, але такі спроби вже ведуться
FAQ
Чим InstaNovo відрізняється від AlphaFold? AlphaFold вирішує зворотну задачу: беручи відому послідовність амінокислот, він передбачає тривимірну структуру білка. InstaNovo вирішує протилежне: беручи сигнал мас-спектрометра (масові «відбитки» фрагментів), він відновлює послідовність амінокислот. Обидва разом — це потужне поєднання: прочитав послідовність (InstaNovo) → передбачив структуру (AlphaFold) → зрозумів функцію.
Що таке de novo секвенування і чим воно краще за стандартний пошук? Стандартний підхід порівнює виміряні мас-спектрометром «відбитки» пептидів із записами в базі даних. Якщо збігу немає — білок не ідентифікується. De novo підхід не потребує бази: він реконструює послідовність прямо зі спектра. Це відкриває можливість ідентифікувати абсолютно нові білки — з неохарактеризованих організмів, мутованих ракових клітин або давньо збережених зразків.
Чи можна вже використовувати InstaNovo в реальних клінічних умовах? Не повністю. Інструмент ще проходить тестування на великих наборах даних і потребує адаптації для різних типів мас-спектрометрів та для коректного розпізнавання пост-трансляційних модифікацій. Однак уже зараз він є цінним дослідницьким інструментом, особливо для аналізу мікробіому, пошуку нових пептидів для імунотерапії та палеопротеоміки.
ШІ навчився читати білки, як текст і це змінює всю біологію з’явилася спочатку на Цікавості.

6854