Trillion Gene Atlas: як Basecamp Research збирається «перетравити» генетику планети за два роки
Поки світ сперечається, чи замінить ChatGPT копірайтерів, британська компанія Basecamp Research замахнулася на значно масштабнішу ціль — оцифрувати генетичне різноманіття Землі. Їхній новий проєкт Trillion Gene Atlas обіцяє зробити за два роки те, на що раніше пішло б два десятиліття. План простий і водночас зухвалий: зібрати та проаналізувати дані понад 100 мільйонів раніше не вивчених видів живих організмів, збільшивши обсяг відомого генетичного різноманіття планети приблизно у 100 разів.
Криза даних у біологічному ШІ
Проблема сучасної цифрової біології полягає в тому, що більшість ШІ-моделей «жують» одні й ті самі публічні бази даних. Це створює ситуацію, коли алгоритми стають розумнішими, але їхній кругозір залишається обмеженим вузьким набором відомих послідовностей. В Basecamp Research вважають, що саме нестача різноманітних даних є головним гальмом прогресу.
Компанія вже встигла натренувати сімейство моделей EDEN на власній базі BaseData. У ній міститься понад 10 мільярдів раніше невідомих науці генів, знайдених у мільйона нових видів. Результати виявилися цікавими: з’ясувалося, що при збільшенні різноманітності біологічних даних можливості ШІ зростають швидше, ніж передбачали стандартні закони масштабування.
Технологічний альянс та «Геном людини» на стероїдах
Щоб реалізувати Trillion Gene Atlas, британці зібрали справжній «загін месників» від світу технологій. Anthropic (творці Claude) допоможуть з інтеграцією ШІ-асистентів у наукові процеси, Ultima Genomics забезпечить надшвидке секвенування, PacBio надасть технологію точних довгих послідовностей, а вся обчислювальна потужність ляже на плечі інфраструктури Nvidia.
Автори проєкту не соромляться порівнювати свій задум із проєктом «Геном людини». Але якщо на початку століття вчені витратили роки на розшифровку одного виду (нас із вами), то зараз мова йде про спробу створити найбільшу в історії карту життя на Землі. Для цього компанія за останні 6 років розбудувала мережу партнерів у 31 країні, включаючи експедиції до Антарктиди та важкодоступних регіонів Чилі та Аргентини.
Від експериментів до системного проєктування
Практична користь від такого масиву даних — це не лише задоволення цікавості вчених. Модель EDEN вже показала, що може проєктувати терапевтичні молекули безпосередньо за описом хвороби. У лабораторіях вона продемонструвала активність у людських Т-клітинах, хоча її навіть не вчили на клінічних даних. Також повідомляється про успішне створення антимікробних пептидів, які влучають у ціль із точністю до 97%.
Кінцева мета — перетворити пошук ліків із методу «наукового тику» та нескінченних лабораторних тестів на прогнозований інженерний процес. Якщо все піде за планом, Claude від Anthropic у майбутньому зможе допомагати дослідникам інтерпретувати складні біологічні зв’язки, значно прискорюючи розробку нових методів лікування.
Поки біологи масштабують дані, технологічні гіганти переглядають ланцюжки постачання заліза. Наприклад, Google шукає альтернативу TSMC, розглядаючи Samsung для виробництва своїх нових чипів Icefish.