Cientistas criaram uma IA que escreve DNA. Ela já sabe projetar vírus sozinha.
Evo 2, do Arc Institute, foi treinada em 9.3 trilhões de nucleotídeos e identifica mutações causadoras de doenças com mais de 90% de precisão.
O Arc Institute acabou de publicar na Nature o maior modelo de IA para genoma já criado. O Evo 2 foi treinado em 9,3 trilhões de nucleotídeos - as letras A, T, C e G que formam o código genético de todo ser vivo - extraídos de mais de 128 mil genomas completos de mais de 100 mil espécies. O modelo é open source, está disponível no GitHub, e já consegue identificar mutações que causam doenças com mais de 90% de precisão.
Pra colocar em perspectiva: os modelos de linguagem como o ChatGPT aprenderam a escrever texto lendo trilhões de palavras da internet. O Evo 2 fez o equivalente, só que lendo DNA.
O que o Evo 2 faz
O modelo funciona como um “ChatGPT do DNA”. Ele lê sequências genéticas e entende padrões que levam décadas de pesquisa experimental pra identificar. Mas vai além de ler: ele também escreve. O Evo 2 consegue gerar sequências genéticas sintéticas do tamanho de genomas bacterianos inteiros.
Na prática, isso significa três coisas concretas.
Primeiro, o modelo identifica mutações patogênicas - alterações no DNA que causam doenças. Em testes com o gene BRCA1, associado a câncer de mama e ovário, o Evo 2 acertou mais de 90% das vezes ao distinguir variantes perigosas das inofensivas. Pesquisadores já estão aplicando a mesma abordagem para avaliar risco de Alzheimer.
Segundo, ele projeta bacteriófagos sintéticos - vírus que atacam bactérias específicas. Isso abre caminho pra tratamentos contra bactérias resistentes a antibióticos, um problema que a OMS considera uma das maiores ameaças à saúde global. O biólogo computacional Hani Goodarzi descreveu a possibilidade de criar terapias genéticas que funcionem “apenas em neurônios para evitar efeitos colaterais, ou apenas em células do fígado.”
Terceiro, o modelo processa até 1 milhão de nucleotídeos de uma vez - oito vezes mais que seu antecessor, o Evo 1. Isso permite que ele enxergue relações entre partes distantes de um genoma, algo que seria impossível com janelas de análise menores.

Como foi construído
O Arc Institute, sediado em Palo Alto na Califórnia, liderou o projeto em colaboração com a NVIDIA, Stanford, UC Berkeley e UC San Francisco. Um detalhe curioso: Greg Brockman, cofundador da OpenAI, contribuiu com trabalho de arquitetura durante um período sabático.
O treinamento usou um conjunto de dados chamado OpenGenome2, com 8,8 trilhões de bases genéticas cobrindo os três domínios da vida - bactérias, arqueias e eucariotos (o grupo que inclui humanos, plantas e animais) - mais vírus que infectam bactérias. São 30 vezes mais dados de treinamento que o Evo 1.
A infraestrutura computacional veio da NVIDIA: mais de 2.000 GPUs H100 rodando por meses na plataforma DGX Cloud via AWS. A arquitetura do modelo se chama StripedHyena 2, desenvolvida especificamente pra processar sequências genéticas longas de forma eficiente.
Patrick Hsu, cofundador do Arc Institute e professor em Berkeley, descreveu o resultado: “Máquinas agora conseguem ler, escrever e pensar na linguagem dos nucleotídeos.” Brian Hie, pesquisador de Stanford que co-liderou o projeto, complementou dizendo que os padrões refinados por milhões de anos de evolução contêm sinais sobre interações moleculares que o modelo aprende a interpretar.
Dave Burke, outro pesquisador envolvido, usou uma analogia de computação: “Pense no modelo quase como o kernel de um sistema operacional” - a camada fundamental sobre a qual aplicações específicas podem ser construídas.
Open source e segurança
O Evo 2 é totalmente open source. O código e os pesos do modelo estão no GitHub do Arc Institute e integrados ao framework BioNeMo da NVIDIA. Qualquer pesquisador pode baixar, rodar e adaptar o modelo pra seus projetos. Isso faz dele, segundo os desenvolvedores, o maior modelo de IA totalmente aberto já publicado.
Mas quando uma IA consegue escrever genomas, a pergunta sobre segurança é inevitável. O time tomou precauções: organismos patogênicos para humanos foram deliberadamente excluídos dos dados de treinamento, e o modelo foi configurado pra recusar consultas produtivas sobre patógenos perigosos. Tina Hernandez-Boussard liderou a implementação dos protocolos de desenvolvimento responsável.
É suficiente? Provavelmente não pra sempre. A Nature publicou uma reportagem paralela com o título “IA pode escrever genomas - quanto tempo até criar vida sintética?”, e a pergunta não é retórica. Mas a decisão de manter o modelo aberto tem uma lógica: se a tecnologia vai existir de qualquer forma, é melhor que a comunidade científica inteira possa auditá-la do que deixar isso nas mãos de laboratórios fechados.
Por que isso importa
A genômica está vivendo seu momento “ChatGPT”. Até agora, analisar o genoma de um paciente e entender o que cada variação significa era um trabalho manual e lento. O Evo 2 não substitui geneticistas, mas funciona como um filtro poderoso: em vez de analisar milhares de variantes uma a uma, o modelo aponta as que provavelmente importam.
Pra o Brasil, onde o Sistema Único de Saúde atende mais de 150 milhões de pessoas e a genômica clínica ainda é restrita a centros de referência e laboratórios privados, uma ferramenta open source desse calibre pode ser transformadora. Universidades brasileiras como a USP e a Unicamp já têm grupos de bioinformática que poderiam adaptar o modelo pra populações locais - algo essencial, já que a maioria dos bancos genômicos do mundo é enviesada pra populações europeias.
O modelo não faz diagnóstico sozinho, não substitui médico e não vai curar câncer amanhã. Mas a capacidade de ler 9,3 trilhões de nucleotídeos e entender o que significam é o tipo de ferramenta que muda a velocidade com que a ciência avança. E o fato de ser open source significa que qualquer laboratório do mundo pode usar, sem precisar pagar licença ou depender de uma big tech.
Bruno Silva
Entusiasta de hardware e overclocker nas horas vagas
LEIA TAMBEM
O que acontece quando você fala "Hey Meta" e um estranho no Quênia assiste
A chefe de robótica da OpenAI pediu demissão por causa do Pentágono. E o "modo adulto" do ChatGPT foi adiado. De novo.