Trillion Gene Atlas: как Basecamp Research собирается «переварить» генетику планеты за два года
Пока мир спорит, заменит ли ChatGPT копирайтеров, британская компания Basecamp Research замахнулась на значительно более масштабную цель — оцифровать генетическое разнообразие Земли. Их новый проект Trillion Gene Atlas обещает сделать за два года то, на что раньше ушло бы два десятилетия. План прост, но дерзок: собрать и проанализировать данные более чем 100 миллионов ранее не изученных видов живых организмов, увеличив объем известного генетического разнообразия планеты примерно в 100 раз.
Кризис данных в биологическом ИИ
Проблема современной цифровой биологии в том, что большинство ИИ-моделей «жуют» одни и те же публичные базы данных. Это создает ситуацию, когда алгоритмы становятся умнее, но их кругозор остается ограниченным узким набором известных последовательностей. В Basecamp Research считают, что именно нехватка разнообразных данных является главным тормозом прогресса.
Компания уже успела натренировать семейство моделей EDEN на собственной базе BaseData. В ней содержится более 10 миллиардов ранее неизвестных науке генов, найденных в миллионах новых видов. Результаты оказались интересными: выяснилось, что при увеличении разнообразия биологических данных возможности ИИ растут быстрее, чем предполагали стандартные законы масштабирования.
Технологический альянс и «Геном человека» на стероидах
Чтобы реализовать Trillion Gene Atlas, британцы собрали настоящий «отряд мстителей» от мира технологий. Anthropic (создатели Claude) поможет с интеграцией ИИ-ассистентов в научные процессы, Ultima Genomics обеспечит сверхбыстрое секвенирование, PacBio предоставит технологию точных длинных последовательностей, а вся вычислительная мощность ляжет на плечи инфраструктуры Nvidia.
Авторы проекта не стесняются сравнивать свою задумку с проектом «Геном человека». Но если в начале века ученые потратили годы на расшифровку одного вида (нас с вами), то сейчас речь идет о попытке создать крупнейшую в истории карту жизни на Земле. Для этого компания за последние 6 лет выстроила сеть партнеров в 31 стране, включая экспедиции в Антарктиду и труднодоступные регионы Чили и Аргентины.
От экспериментов к системному проектированию
Практическая польза от такого массива данных — это не только удовлетворение любопытства ученых. Модель EDEN уже показала, что может проектировать терапевтические молекулы непосредственно по описанию болезни. В лабораториях она продемонстрировала активность в человеческих Т-клетках, хотя её даже не обучали на клинических данных. Также сообщается об успешном создании антимикробных пептидов, которые поражают цель с точностью до 97%.
Конечная цель — превратить поиск лекарств из метода «научного тыка» и бесконечных лабораторных тестов в прогнозируемый инженерный процесс. Если всё пойдет по плану, Claude от Anthropic в будущем сможет помогать исследователям интерпретировать сложные биологические взаимосвязи, значительно ускоряя разработку новых методов лечения.
Пока биологи масштабируют данные, технологические гиганты пересматривают цепочки поставок железа. Например, Google ищет альтернативу TSMC, рассматривая Samsung для производства своих новых чипов Icefish.