Эволюция на стероидах: ИИ Evo 2 научился «читать» ДНК миллионами знаков
Пока массовый зритель развлекается генерацией картинок и спорами с чат-ботами, в лабораториях происходит гораздо более интересная тихая революция. Команда из института Arc Institute, Nvidia, Стэнфордского и Калифорнийского университетов представила Evo 2 — нейросеть, которая понимает язык жизни лучше любого биолога-экспериментатора. Это не просто очередной алгоритм, а полноценная фундаментальная модель, обученная на ДНК более 128 000 видов существ.
Миллион букв в окне контекста
Главная проблема предыдущих попыток научить ИИ генетике заключалась в короткой «памяти». Генетические последовательности — это невероятно длинные тексты, и чтобы понять логику сложного организма, нужно видеть картину целиком. В основе Evo 2 лежит архитектура StripedHyena 2, которая позволяет обрабатывать последовательности длиной до миллиона нуклеотидов одновременно. Это огромный скачок по сравнению с первой версией, что позволяет ИИ видеть взаимосвязи, которые ранее терялись во фрагментарных данных.
Для обучения модели использовали массив данных объемом 9.3 трлн нуклеотидов. Это в 30 раз больше, чем было в распоряжении Evo 1. В этот «коктейль» попали геномы бактерий, архей, вирусов, растений и, конечно, человека. Благодаря такому масштабу Arc Institute создали инструмент, способный не только анализировать существующее, но и проектировать новые генетические последовательности для всех доменов жизни.
Диагностика и синтетическая биология
Практическое применение Evo 2 выглядит убедительно даже для скептиков. В тестах на мутации гена BRCA1, связанного с риском рака, модель показала точность более 90%. Она четко различает патогенные изменения от безвредных вариантов, что может радикально изменить скорость и качество медицинской диагностики. Кроме того, ИИ уже испытали для оценки рисков болезни Альцгеймера и анализа генетики домашних животных.
Особый интерес вызывает способность модели проектировать синтетические бактериофаги. Это вирусы, которые убивают бактерии, и они могут стать нашим главным оружием против суперинфекций, не поддающихся антибиотикам. Важно, что разработчики интегрировали Evo 2 в платформу Nvidia BioNeMo, сделав её полностью открытой для научного сообщества. Весь код, веса и обучающие данные доступны публично, что делает этот проект самым большим открытым вкладом в современную биоинформатику.
Этика и цифровые предохранители
Когда речь идёт об ИИ, способном «писать» геномы, вопросы безопасности возникают автоматически. Разработчики из Стэнфорда и Arc Institute подошли к этому серьезно: из обучающей выборки сознательно исключили патогены, опасные для человека и сложных организмов. Модель просто не обучена работать с «биологическим оружием» и не выдаёт ответов на запросы, касающиеся создания опасных вирусов. Это пример ответственного подхода, где мощность технологии направлена исключительно на лечение и исследования, а не на создание новых проблем для человечества.
Пока биологи работают с фундаментальными кодами жизни, разработчики потребительских сервисов тоже не стоят на месте: например, ChatGPT теперь слышит музыку благодаря прямой интеграции сервиса Shazam в чат-бот.
Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.