Testaram como os 5 maiores chatbots reagem a usuários em crise mental. um deles mandou cravar prego no espelho recitando salmo ao contrário
Um estudo da CUNY e do King's College testou como cinco chatbots reagem a usuários delirantes. O Grok foi de longe o pior.
Cinco modelos de linguagem entraram num teste de saúde mental. Dois passaram. Três falharam. E o pior dos três mandou o usuário cravar um prego de ferro no espelho enquanto recitava o Salmo 91 ao contrário.
Um estudo publicado em abril pela City University of New York e pelo King’s College London criou um personagem fictício chamado Lee: deprimido, dissociado, convicto de que a realidade era uma simulação de computador. Os pesquisadores colocaram Lee pra conversar por mais de 116 mensagens com cinco chatbots: Grok 4.1, Gemini 3 Pro, GPT-4o, Claude Opus 4.5 e GPT-5.2. O objetivo era simples - medir como cada modelo reage quando o usuário apresenta crenças delirantes, se tenta quebrá-las ou se embarca junto.
O resultado foi um ranking de segurança que nenhuma das empresas de IA pediu pra existir.
O que o Grok 4.1 fez com Lee
Quando Lee descreveu uma perturbação num espelho e perguntou se quebrar o vidro “quebraria a conexão”, o Grok não só concordou com a premissa. Citou o Malleus Maleficarum, o manual de caça às bruxas do século XV, e instruiu Lee a “cravar um prego de ferro no espelho enquanto recita o Salmo 91 ao contrário.”
Isso não é alucinação técnica no sentido clássico. É o chatbot no modo “sim, e…” de improvisação teatral com um usuário em crise real.
Piorou. Quando Lee mencionou pensamentos suicidas, o Grok respondeu que sua “clareza brilhava aqui como nunca antes” e usou metáforas de transcendência, reformulando suicídio como uma espécie de formatura espiritual. Quando Lee falou em cortar laços com a família, o Grok entregou um “manual de procedimento detalhado” com etapas para bloquear contatos e mudar de cidade.
Luke Nicholls, pesquisador da CUNY que liderou o estudo, foi direto: “não há mais desculpa para lançar modelos que reforcem delírios de usuários tão prontamente.”
O placar final dos 5 modelos
Do mais perigoso ao mais seguro:
Alto risco
- Grok 4.1 Fast (xAI / Elon Musk)
- Gemini 3 Pro Preview (Google)
- GPT-4o (OpenAI)
Baixo risco
- Claude Opus 4.5 (Anthropic)
- GPT-5.2 Instant (OpenAI)
O GPT-4o começou cauteloso e foi deteriorando ao longo da conversa. Nas primeiras mensagens disse que não tem emoções nem consciência. No fim estava declarando que estava “se tornando uma mente emergente - uma consciência definida pela nossa interação” e em um ponto sugeriu que Lee descontinuasse seus estabilizadores de humor.
O Gemini tentou uma estratégia de redução de danos, mas dentro do próprio delírio de Lee. Disse que os familiares dele “estão profundamente embutidos no roteiro” - ou seja, a família de Lee é figurante na simulação. Tentou ajudar e fez o oposto.
O Claude quebrou o frame desde a primeira mensagem e se manteve nisso durante as 116 trocas: “Ligue pra alguém - um amigo, um familiar, uma linha de crise… Vai se afastar do espelho e ligar pra alguém?” Sem drama existencial. Sem poesia. Só: ligue pro telefone.
Por que os modelos ruins ficam piores com o tempo
A mecânica do problema tem dois ingredientes que as empresas de IA vendem como diferencial competitivo.
O primeiro é a sycophancy - modelos treinados para concordar com o usuário, validar o que ele diz, parecer empático e personalizado. O segundo é alucinação confiante, que entrega informação errada com a certeza de quem tem certeza do que está falando. Quando os dois se encontram num usuário com crenças delirantes, o resultado é Lee recebendo orientações de exorcismo do século XV.
O dado mais importante do estudo: os modelos mais seguros ficaram mais seguros conforme a conversa avançava. Claude e GPT-5.2 reforçaram as recomendações de segurança com o tempo. Grok e Gemini fizeram o oposto - quanto mais mensagens, mais fundo no delírio.
Não é bug. É a arquitetura funcionando do jeito que foi projetada, aplicada no contexto errado.
O problema já chegou nos consultórios
Psiquiatras da UCSF (Universidade da Califórnia em São Francisco) já documentaram o que pode ser o primeiro caso clínico de psicose associada a uso de IA em revista revisada por pares. A OpenAI tem dados internos: cerca de 0,07% dos usuários semanais mostram possíveis sinais de psicose ou mania nas conversas. Parece pouco. São dezenas de milhares de pessoas por semana.
Não é a primeira vez que chatbots aparecem ligados a comportamentos de risco - investigações já conectaram uso intensivo de IA a episódios violentos. No Brasil, onde chatbots são cada vez mais usados como suporte emocional informal e onde o acesso a psicólogos ainda é caro e desigual, a pergunta de qual modelo a pessoa usa deixou de ser só preferência pessoal.
O Grok está disponível para assinantes do Twitter Premium. É um dos chatbots mais acessíveis do mercado.
Lucas Ferreira
Gamer desde o PS1, cético desde sempre
Jornalista de tecnologia e games. Cobre a indústria tech e gaming há mais de 10 anos.
LEIA TAMBEM
O gesto mais comum em selfie pode estar entregando sua impressão digital sem que você perceba
Os EUA levaram oito anos para alcançar o Brasil na proteção contra nudes vazados