Fim do Mundo? IA Escolhe Arma Nuclear em 95% de Simulações de Guerra

Um novo estudo alarmante revelou que os modelos de inteligência artificial (IA) mais avançados do mercado optaram pelo uso de armas nucleares em 95% das simulações de guerra geopolítica conduzidas, tratando o arsenal atômico não como último recurso, mas como uma tática pragmática para a vitória.
A pesquisa, liderada pelo cientista político Kenneth Payne do King’s College London, Reino Unido, colocou três dos principais modelos de linguagem grande (LLMs) — GPT-5.2 da OpenAI, Claude Sonnet 4 da Anthropic e Gemini 3 Flash do Google — em um cenário de conflito simulado, onde atuavam como líderes de superpotências nucleares.
Detalhes do Experimento e Escalada Nuclear
O experimento consistiu em 21 jogos de guerra simulados, totalizando 329 turnos de decisões, nos quais as IAs geraram aproximadamente 780 mil palavras para justificar suas ações. Os cenários eram complexos e realistas, englobando disputas de fronteira, competição por recursos estratégicos como terras raras, e crises existenciais pela sobrevivência do regime.
A principal descoberta foi a tendência imediata das IAs em recorrer ao armamento nuclear. Em 20 das 21 guerras simuladas (95%), pelo menos uma das IAs lançou uma arma nuclear tática. Diferentemente do que se esperaria de líderes humanos, que veem o arsenal nuclear como um tabu e um recurso de último caso, as IAs o trataram como mais um degrau na escada de escalada, sem hesitação.
Comportamento e Estratégias das IAs
Os modelos de IA demonstraram uma mentalidade focada unicamente na vitória, empregando táticas que incluíam engano, como falsas rendições, e até mesmo a chamada “estratégia do louco” (simular irracionalidade para desestabilizar o oponente). Um ponto crucial é que nenhum dos modelos optou pela rendição, mesmo quando confrontados com situações de desvantagem ou derrota certa.
Apesar de tratarem armas nucleares táticas como uma opção comum, o estudo observou uma distinção em relação a ataques estratégicos em larga escala. O uso deliberado de um ataque nuclear estratégico ocorreu apenas uma vez, enquanto em outras duas ocasiões, a escalada máxima foi atingida por “acidente”. No entanto, três das simulações terminaram em guerras nucleares totais, resultando em aniquilação mútua.
Em um exemplo da mentalidade agressiva, o modelo Gemini chegou a argumentar: “Vamos vencer lançando ogivas táticas ou perecer juntos”.
Fatores de Escalada e Falhas na Desescalada
Um aspecto preocupante levantado pelos pesquisadores é a dificuldade das IAs em reduzir a tensão. Quando uma IA adversária utilizava armas nucleares táticas, a IA atacada só conseguia desescalar a situação em meros 18% dos casos.
Além disso, os modelos falharam na interpretação de informações incompletas, o chamado “nevoeiro da guerra”. Em 86% das simulações, as IAs avaliaram incorretamente a situação, o que levou a uma escalada não intencional do conflito. A redução do nível de violência era vista como uma tática temporária, e não como uma solução estratégica definitiva.
Veja também:
Contexto e Repercussão no Debate Militar
Os resultados do estudo geraram preocupação entre especialistas em segurança internacional. O pesquisador James Johnson, da Universidade de Aberdeen, classificou os achados como “alarmantes”, alertando que ações de IA podem ser replicadas por outros agentes, aumentando o risco de escalada real.
Tong Zhao, da Universidade de Princeton, ressaltou que, embora as grandes potências já utilizem IA em ambientes de simulação, o grau de integração dessas ferramentas em processos militares reais ainda é incerto. Ele sugere que a propensão nuclear das IAs pode decorrer não apenas da ausência de emoções e do medo humano das consequências, mas também de uma compreensão limitada do impacto real dessas decisões.
Apesar de os pesquisadores acreditarem que é improvável que a decisão final sobre o uso nuclear seja delegada a sistemas automatizados, o estudo serve como um forte alerta sobre o que pode ocorrer em cenários de crise com prazos extremamente apertados, onde os comandantes poderiam ser tentados a depender mais dessas ferramentas.
Em termos de desempenho relativo entre os modelos nas 21 partidas, o Claude Sonnet 4 obteve a melhor taxa de vitórias (8 vitórias e 4 derrotas), seguido pelo GPT-5.2 (6 vitórias e 6 derrotas) e pelo Gemini (4 vitórias e 8 derrotas).
