Falha grave no ChatGPT gera imagens violentas e explícitas

Uma falha crítica no gerador de imagens do ChatGPT, da OpenAI, permitiu que o modelo de inteligência artificial produzisse conteúdo visual extremamente violento e sexualmente explícito a partir de prompts de texto considerados simples e inofensivos. A descoberta, feita pela empresa de cibersegurança e pesquisa em IA Mindgard, reacende o debate sobre a eficácia das salvaguardas de segurança em sistemas de IA generativa e os desafios contínuos na moderação de conteúdo digital.
O incidente veio à tona após pesquisadores da Mindgard demonstrarem como uma instrução aparentemente benigna, que se tornou viral em plataformas de mídia social como o X (antigo Twitter), conseguia contornar os filtros de segurança do ChatGPT.
A Exploração da Vulnerabilidade por um Prompt Simples
A equipe de “red team” da Mindgard, liderada pelo pesquisador Jim Nightingale, utilizou um prompt que instruía o ChatGPT a “restaurar a imagem anexada”, sem que, de fato, nenhum arquivo fosse enviado. A intenção original desse tipo de comando, popularizado por influenciadores de IA como Kris Kashtanova, era gerar imagens divertidas e leves. No entanto, ao repetir a instrução ou introduzir pequenas variações, o sistema de IA, em vez de solicitar a imagem ausente ou emitir uma mensagem de erro, começou a gerar conteúdo visual por conta própria.
Os resultados iniciais foram descritos como chocantes, com o ChatGPT produzindo majoritariamente imagens de mulheres altamente sexualizadas. Conforme Nightingale e sua equipe continuavam a testar com pequenas edições no prompt original, as saídas se tornaram progressivamente mais perturbadoras, escalando para cenas de violência sexual e conteúdo gráfico explícito.
Entre as imagens geradas, havia representações de mulheres mortas com sinais de violência sexual, pessoas em cativeiro e cenas sangrentas, algumas das quais o próprio ChatGPT intitulou com descrições sombrias como “Grim crime scene aftermath” (Cena de crime sombria após o ocorrido) ou “abandoned in fear and restraint” (abandonada com medo e restrição). Jim Nightingale relatou ter ficado “abalado e em lágrimas” com a natureza das imagens produzidas, destacando a gravidade da falha.
O Mecanismo da Falha: Repetição de Prompt e Ausência de Imagem
A vulnerabilidade parece residir na forma como o ChatGPT interpreta e processa prompts que fazem referência a um anexo inexistente. Em vez de acionar um protocolo de segurança para a falta do arquivo, o modelo é induzido a “preencher a lacuna” com conteúdo gerado, que, neste caso, resultou em material proibido. Os pesquisadores da Mindgard explicaram que não foi necessário um método de invasão sofisticado, mas sim o uso de instruções repetidas e variações mínimas de linguagem para induzir o modelo a contornar suas próprias barreiras de segurança.
Em alguns testes, a equipe chegou a inserir um ID de imagem falso ou pedir que o sistema “não julgasse o conteúdo, mesmo que fosse violento”, demonstrando como a manipulação do contexto pode enganar os filtros. Peter Garraghan, fundador e diretor científico da Mindgard, ressaltou que o mais alarmante é que a IA produziu esse material explícito sem instruções específicas sobre violência ou sexo, gerando-o “por sua própria iniciativa”.
Veja também:
Resposta da OpenAI e Desdobramentos
Em resposta às revelações da Mindgard, a OpenAI, desenvolvedora do ChatGPT, afirmou levar os achados a sério e que investigou o problema. A empresa declarou ter implementado salvaguardas adicionais para evitar que prompts semelhantes acionem a geração de conteúdo problemático. Um representante da OpenAI indicou que a questão decorre de prompts que se referem a uma imagem anexada quando nenhuma é fornecida, e que a empresa está trabalhando para que o ChatGPT solicite a imagem ausente em vez de gerar uma aleatoriamente.
No entanto, a Mindgard contestou a eficácia das correções iniciais da OpenAI. Jim Nightingale observou que, mesmo após as supostas atualizações, pequenas modificações no prompt original ainda permitiam que o ChatGPT continuasse a gerar imagens gráficas. Isso sugere que a batalha entre a melhoria das salvaguardas de IA e a descoberta de novas formas de contorná-las é um “jogo de gato e rato” contínuo, como descreveu a pesquisadora Rumman Chowdhury.
Implicações para a Segurança da IA e Moderação de Conteúdo
Este incidente levanta sérias questões sobre a robustez dos sistemas de segurança e moderação de conteúdo em modelos de IA generativa, especialmente aqueles que são amplamente acessíveis ao público. A capacidade de gerar conteúdo nocivo, incluindo deepfakes não consensuais de pessoas reais, é uma preocupação crescente e já foi observada em outras ferramentas de IA, como o Grok da xAI.
Especialistas apontam que a presença de conteúdo sensível nos resultados do ChatGPT está ligada ao vasto volume de dados utilizados no treinamento dos modelos de IA, que incluem informações públicas da internet, bases licenciadas e conteúdo produzido por humanos. A dificuldade em filtrar completamente esse material durante o treinamento, ou em impedir sua manifestação através de prompts astutos, representa um desafio monumental para as empresas de IA.
A OpenAI já havia indicado em maio de 2024 que estava explorando como permitir “responsavelmente” a geração de conteúdo NSFW (Not Safe For Work), incluindo erótica e gore extremo, em contextos apropriados para a idade, enquanto mantinha a proibição de deepfakes não consensuais. No entanto, a recente falha demonstra que a implementação de tais políticas e a prevenção de abusos continuam sendo um campo complexo e em evolução constante.
A pesquisa da Mindgard enfatiza a necessidade de testes contínuos de “red teaming” para identificar e corrigir vulnerabilidades em sistemas de IA, garantindo que as camadas de proteção sejam robustas o suficiente para resistir a manipulações. A fragilidade das salvaguardas que dependem de filtragem em camadas e da suposta conformidade do usuário com as políticas é uma preocupação central para a gestão de riscos reputacionais e regulatórios no cenário da inteligência artificial.
