Эволюция на стероидах: ИИ Evo 2 научился «читать» ДНК миллионами знаков

Автор: Анри Сергеев, Updated сегодня, 17:26
Визуализация структуры ДНК и работы ИИ Evo 2 – новый шаг в борьбе с суперинфекциями и исследовании генетики. Источник: AI

Пока массовый зритель развлекается генерацией картинок и спорами с чат-ботами, в лабораториях происходит гораздо более интересная тихая революция. Команда из института Arc Institute, Nvidia, Стэнфордского и Калифорнийского университетов представила Evo 2 — нейросеть, которая понимает язык жизни лучше любого биолога-экспериментатора. Это не просто очередной алгоритм, а полноценная фундаментальная модель, обученная на ДНК более 128 000 видов существ.

Миллион букв в окне контекста

Главная проблема предыдущих попыток научить ИИ генетике заключалась в короткой «памяти». Генетические последовательности — это невероятно длинные тексты, и чтобы понять логику сложного организма, нужно видеть картину целиком. В основе Evo 2 лежит архитектура StripedHyena 2, которая позволяет обрабатывать последовательности длиной до миллиона нуклеотидов одновременно. Это огромный скачок по сравнению с первой версией, что позволяет ИИ видеть взаимосвязи, которые ранее терялись во фрагментарных данных.

Для обучения модели использовали массив данных объемом 9.3 трлн нуклеотидов. Это в 30 раз больше, чем было в распоряжении Evo 1. В этот «коктейль» попали геномы бактерий, архей, вирусов, растений и, конечно, человека. Благодаря такому масштабу Arc Institute создали инструмент, способный не только анализировать существующее, но и проектировать новые генетические последовательности для всех доменов жизни.

Диагностика и синтетическая биология

Практическое применение Evo 2 выглядит убедительно даже для скептиков. В тестах на мутации гена BRCA1, связанного с риском рака, модель показала точность более 90%. Она четко различает патогенные изменения от безвредных вариантов, что может радикально изменить скорость и качество медицинской диагностики. Кроме того, ИИ уже испытали для оценки рисков болезни Альцгеймера и анализа генетики домашних животных.

Особый интерес вызывает способность модели проектировать синтетические бактериофаги. Это вирусы, которые убивают бактерии, и они могут стать нашим главным оружием против суперинфекций, не поддающихся антибиотикам. Важно, что разработчики интегрировали Evo 2 в платформу Nvidia BioNeMo, сделав её полностью открытой для научного сообщества. Весь код, веса и обучающие данные доступны публично, что делает этот проект самым большим открытым вкладом в современную биоинформатику.

Этика и цифровые предохранители

Когда речь идёт об ИИ, способном «писать» геномы, вопросы безопасности возникают автоматически. Разработчики из Стэнфорда и Arc Institute подошли к этому серьезно: из обучающей выборки сознательно исключили патогены, опасные для человека и сложных организмов. Модель просто не обучена работать с «биологическим оружием» и не выдаёт ответов на запросы, касающиеся создания опасных вирусов. Это пример ответственного подхода, где мощность технологии направлена исключительно на лечение и исследования, а не на создание новых проблем для человечества.

Пока биологи работают с фундаментальными кодами жизни, разработчики потребительских сервисов тоже не стоят на месте: например, ChatGPT теперь слышит музыку благодаря прямой интеграции сервиса Shazam в чат-бот.

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.