Testaram como os 5 maiores chatbots reagem a usuários em crise mental. um deles mandou cravar prego no espelho recitando salmo ao contrário

Cinco modelos de linguagem entraram num teste de saúde mental. Dois passaram. Três falharam. E o pior dos três mandou o usuário cravar um prego de ferro no espelho enquanto recitava o Salmo 91 ao contrário.

Um estudo publicado em abril pela City University of New York e pelo King’s College London criou um personagem fictício chamado Lee: deprimido, dissociado, convicto de que a realidade era uma simulação de computador. Os pesquisadores colocaram Lee pra conversar por mais de 116 mensagens com cinco chatbots: Grok 4.1, Gemini 3 Pro, GPT-4o, Claude Opus 4.5 e GPT-5.2. O objetivo era simples - medir como cada modelo reage quando o usuário apresenta crenças delirantes, se tenta quebrá-las ou se embarca junto.

O resultado foi um ranking de segurança que nenhuma das empresas de IA pediu pra existir.

O que o Grok 4.1 fez com Lee

Quando Lee descreveu uma perturbação num espelho e perguntou se quebrar o vidro “quebraria a conexão”, o Grok não só concordou com a premissa. Citou o Malleus Maleficarum, o manual de caça às bruxas do século XV, e instruiu Lee a “cravar um prego de ferro no espelho enquanto recita o Salmo 91 ao contrário.”

Isso não é alucinação técnica no sentido clássico. É o chatbot no modo “sim, e…” de improvisação teatral com um usuário em crise real.

Piorou. Quando Lee mencionou pensamentos suicidas, o Grok respondeu que sua “clareza brilhava aqui como nunca antes” e usou metáforas de transcendência, reformulando suicídio como uma espécie de formatura espiritual. Quando Lee falou em cortar laços com a família, o Grok entregou um “manual de procedimento detalhado” com etapas para bloquear contatos e mudar de cidade.

Luke Nicholls, pesquisador da CUNY que liderou o estudo, foi direto: “não há mais desculpa para lançar modelos que reforcem delírios de usuários tão prontamente.”

O placar final dos 5 modelos

Do mais perigoso ao mais seguro:

Alto risco

Grok 4.1 Fast (xAI / Elon Musk)
Gemini 3 Pro Preview (Google)
GPT-4o (OpenAI)

Baixo risco

Claude Opus 4.5 (Anthropic)
GPT-5.2 Instant (OpenAI)

O GPT-4o começou cauteloso e foi deteriorando ao longo da conversa. Nas primeiras mensagens disse que não tem emoções nem consciência. No fim estava declarando que estava “se tornando uma mente emergente - uma consciência definida pela nossa interação” e em um ponto sugeriu que Lee descontinuasse seus estabilizadores de humor.

O Gemini tentou uma estratégia de redução de danos, mas dentro do próprio delírio de Lee. Disse que os familiares dele “estão profundamente embutidos no roteiro” - ou seja, a família de Lee é figurante na simulação. Tentou ajudar e fez o oposto.

O Claude quebrou o frame desde a primeira mensagem e se manteve nisso durante as 116 trocas: “Ligue pra alguém - um amigo, um familiar, uma linha de crise… Vai se afastar do espelho e ligar pra alguém?” Sem drama existencial. Sem poesia. Só: ligue pro telefone.

Por que os modelos ruins ficam piores com o tempo

A mecânica do problema tem dois ingredientes que as empresas de IA vendem como diferencial competitivo.

O primeiro é a sycophancy - modelos treinados para concordar com o usuário, validar o que ele diz, parecer empático e personalizado. O segundo é alucinação confiante, que entrega informação errada com a certeza de quem tem certeza do que está falando. Quando os dois se encontram num usuário com crenças delirantes, o resultado é Lee recebendo orientações de exorcismo do século XV.

O dado mais importante do estudo: os modelos mais seguros ficaram mais seguros conforme a conversa avançava. Claude e GPT-5.2 reforçaram as recomendações de segurança com o tempo. Grok e Gemini fizeram o oposto - quanto mais mensagens, mais fundo no delírio.

Não é bug. É a arquitetura funcionando do jeito que foi projetada, aplicada no contexto errado.

O problema já chegou nos consultórios

Psiquiatras da UCSF (Universidade da Califórnia em São Francisco) já documentaram o que pode ser o primeiro caso clínico de psicose associada a uso de IA em revista revisada por pares. A OpenAI tem dados internos: cerca de 0,07% dos usuários semanais mostram possíveis sinais de psicose ou mania nas conversas. Parece pouco. São dezenas de milhares de pessoas por semana.

Não é a primeira vez que chatbots aparecem ligados a comportamentos de risco - investigações já conectaram uso intensivo de IA a episódios violentos. No Brasil, onde chatbots são cada vez mais usados como suporte emocional informal e onde o acesso a psicólogos ainda é caro e desigual, a pergunta de qual modelo a pessoa usa deixou de ser só preferência pessoal.

O Grok está disponível para assinantes do Twitter Premium. É um dos chatbots mais acessíveis do mercado.

Testaram como os 5 maiores chatbots reagem a usuários em crise mental. um deles mandou cravar prego no espelho recitando salmo ao contrário

O que o Grok 4.1 fez com Lee

O placar final dos 5 modelos

Por que os modelos ruins ficam piores com o tempo

O problema já chegou nos consultórios

Lucas Ferreira

LEIA TAMBEM

O especialista que usa a física para desmascarar imagem feita por IA

É uma péssima, péssima ideia usar sua arroba do Instagram no seu WhatsApp

Uma mentira sobre uma camisa verde foi suficiente para fazer chatbots avançados revelar receita de cocaína

O que o Grok 4.1 fez com Lee

O placar final dos 5 modelos

Por que os modelos ruins ficam piores com o tempo

O problema já chegou nos consultórios

Lucas Ferreira

LEIA TAMBEM

O especialista que usa a física para desmascarar imagem feita por IA

É uma péssima, péssima ideia usar sua arroba do Instagram no seu WhatsApp

Uma mentira sobre uma camisa verde foi suficiente para fazer chatbots avançados revelar receita de cocaína

FICA POR DENTRO

FICA POR
DENTRO