Автор — Алиса Годованец
Биология стремительно вступает в новую эпоху, где искусственный интеллект становится не просто инструментом анализа данных, а полноценным участником научных открытий. Недавний прорыв в области биоинформатики — представление Evo-2, крупнейшей на сегодняшний день модели искусственного интеллекта, разработанной для работы с генетическими последовательностями. Её создатели — исследователи из Arc Institute, Стэнфордского университета, NVIDIA, UC Berkeley и UC San Francisco — называют её «новым телескопом для изучения жизни», способным заглянуть в молекулярные механизмы, лежащие в основе всех форм живых организмов.
В этом лонгриде мы разберёмся, как работает Evo-2, какие её ключевые достижения и ограничения, какие вызовы она ставит перед современной наукой и как её можно применять в самых разных сферах — от диагностики рака до создания устойчивых сельскохозяйственных культур.
Arc Institute и рождение Evo
Прорыв в биоинформатике, который мы наблюдаем сегодня, не возник на пустом месте. Evo-2 — результат долгого пути, начавшегося ещё несколько лет назад с создания Arc Institute. Это независимый научный центр, поставивший перед собой задачу объединить академическую науку, биотехнологии и искусственный интеллект.
Arc Institute был основан 2021 году Патриком Коллисоном (основателем Stripe), Виталиком Бутериным (создателем Ethereum) и группой предпринимателей Кремниевой долины при поддержке исследователей из Стэнфорда, Беркли и UC San Francisco. В отличие от традиционных академических институтов, Arc сделал ставку не на конкретные проекты, а на учёных, которым предоставляется полная свобода в выборе исследований. Институт также активно развивает научные инструменты — новые технологии для ускорения фундаментальных открытий, что и привело к созданию Evo.
Одним из ключевых технологических партнёров проекта стала компания Nvidia — ведущий разработчик графических процессоров и вычислительных платформ для искусственного интеллекта. Nvidia вложила значительные ресурсы в сферу здравоохранения и биологических наук, предоставив для Evo-2 вычислительную инфраструктуру Nvidia DGX Cloud. Эта платформа обеспечила обработку огромного объёма данных, и это сделало Evo-2 крупнейшей фундаментальной биологической моделью в истории.
Первая версия Evo была представлена год назад и стала первой крупной биологической языковой моделью, способной анализировать ДНК, РНК и белки. Однако её возможности были ограничены: модель работала с короткими последовательностями, что не позволяло учитывать сложные взаимодействия внутри крупных геномов. Запуск Evo-2 стал качественным скачком: новая версия не только преодолела эти ограничения, но и вышла на принципиально новый уровень.
Универсальность и технические особенности Evo-2
Что делает Evo-2 столь значимой? Это первая в своём роде универсальная биологическая языковая модель, которая способна анализировать, предсказывать и проектировать ДНК, РНК и белковые последовательности всех форм жизни — от простейших бактерий до человека. В отличие от предшествующих ИИ-инструментов, таких как AlphaFold, сосредоточенных на предсказании структуры белков, Evo-2 охватывает весь спектр биологических молекул и позволяет проектировать новые геномные последовательности с высокой точностью.
Главное преимущество этой модели — её масштаб и вычислительная мощность. Evo-2 была обучена на 9,3 триллионах нуклеотидов из 128 000 различных геномов, представляющих все домены жизни. Это стало возможным благодаря новой архитектуре StripedHyena 2, разработанной специально для анализа биологических данных. Такая архитектура позволяет обрабатывать последовательности длиной до 1 миллиона нуклеотидов, что существенно превосходит предыдущие методы. Кроме того, Evo-2 не требует предварительного выравнивания последовательностей, что ускоряет вычисления и повышает точность предсказаний.
Одной из ключевых особенностей Evo-2 является её способность работать с всеми уровнями организации генетической информации: от молекулярных структур до целых хромосом. Это позволяет не только анализировать эволюционные связи между организмами, но и моделировать регуляторные механизмы внутри клеток, предсказывая активность генов в зависимости от их последовательности и окружения.
Evo-2 представлена в двух вариантах: 7B и 40B параметров. Модель с 7 миллиардами параметров предназначена для более быстрых вычислений и экономичного анализа, тогда как 40-миллиардная версия позволяет работать с наиболее сложными биологическими задачами. Обе версии работают на основе облачной платформы Nvidia DGX Cloud, что обеспечивает масштабируемость и высокую производительность при обработке огромных массивов биологических данных.
Одним из наиболее важных технологических достижений Evo-2 является её способность к zero-shot learning в геномике. Это означает, что модель способна анализировать ранее неизвестные биологические последовательности без дополнительного обучения (она оценивает их на основе закономерностей, выявленных в известных геномах). Это открывает возможности для работы с редкими видами и плохо изученными группами организмов, что ранее требовало дорогостоящих лабораторных исследований.
Заключительные мысли
Разработка Evo-2 однозначно открывает новую главу в биоинформатике и генетических исследованиях. Однако столь масштабный технологический скачок неизбежно ставит перед научным сообществом ряд сложных вопросов. Аспекты биобезопасности и этики остаются ключевыми: даже при строгом контроле обучающих данных и механизмов работы, технологии такого уровня определенно требуют ответственного использования. Чтобы минимизировать риски, разработчики Evo-2 исключили вирусные геномы из обучающего набора данных, предотвращая возможность несанкционированного применения модели для создания патогенных организмов (да-да, устроить пандемию при помощи нейронки не выйдет).
Кроме того, несмотря на впечатляющую точность предсказаний, Evo-2 остаётся статистической моделью, а её выводы должны подтверждаться экспериментальными данными. Например, предсказания патогенных мутаций показывают очень высокую точность (AUROC то есть area under the receiver operating characteristic curve > 90% для ряда задач), но они требуют лабораторной валидации, особенно в некодирующих областях ДНК, где интерпретация остаётся сложной задачей.
Статья в открытом доступе
