Google Lança DiffusionGemma: IA Aberta Gera Texto 4x Mais Rápido

O Google DeepMind anunciou nesta terça-feira, 10 de junho de 2026, o lançamento do DiffusionGemma, um novo modelo experimental de inteligência artificial de código aberto que promete revolucionar a geração de texto ao operar até quatro vezes mais rápido que os modelos tradicionais. O anúncio, amplamente repercutido por veículos especializados como o TudoCelular.com, destaca uma mudança fundamental na arquitetura de IA para otimizar a velocidade de inferência.
A Inovação por Trás do DiffusionGemma: Difusão de Texto
Diferente da maioria dos Grandes Modelos de Linguagem (LLMs) existentes, que geram texto de forma sequencial, token por token (palavra por palavra), o DiffusionGemma adota uma técnica de difusão de texto, análoga aos modelos de geração de imagens. Em vez de construir a resposta em uma progressão linear, o modelo começa com um ‘bloco de tokens ruidosos’ e os refina iterativamente, gerando blocos inteiros de texto simultaneamente. Essa abordagem paralela permite uma aceleração significativa no processo de criação de conteúdo.
O modelo é capaz de produzir até 256 tokens em paralelo por cada passagem, com cada token podendo ‘atender’ a todos os outros na mesma passagem. Isso confere ao DiffusionGemma a capacidade de auto-correção inteligente, refinando sua própria saída e corrigindo erros em tempo real ao avaliar o bloco de texto completo de uma só vez.
Veja também:
Desempenho e Acessibilidade em Hardware Local
Os ganhos de velocidade do DiffusionGemma são notáveis, alcançando mais de 1.000 tokens por segundo em uma única GPU NVIDIA H100 e cerca de 700 tokens por segundo em GPUs de consumo como a NVIDIA GeForce RTX 5090. Essa performance representa um aumento de até quatro vezes em comparação com modelos autorregressivos equivalentes.
Com uma arquitetura de 26 bilhões de parâmetros (Mixture of Experts – MoE), o DiffusionGemma ativa apenas 3,8 bilhões de parâmetros durante a inferência. Essa eficiência permite que o modelo, quando quantizado, se ajuste confortavelmente a 18GB de VRAM, tornando-o executável em hardware de consumo de ponta. A NVIDIA inclusive colaborou com o Google para otimizar o DiffusionGemma para suas GPUs.
Foco em Fluxos de Trabalho Interativos e Experimentais
O Google posiciona o DiffusionGemma como um modelo experimental, ideal para pesquisadores e desenvolvedores que buscam explorar fluxos de trabalho locais interativos e sensíveis à velocidade. Suas aplicações incluem edição de texto em linha, iteração rápida de conteúdo, preenchimento de código e geração de estruturas de texto não lineares. A capacidade de gerar texto bidirecionalmente é particularmente vantajosa para domínios como edição de código e sequências de aminoácidos.
Apesar de sua velocidade impressionante, o Google DeepMind ressalta que a qualidade geral da saída do DiffusionGemma é inferior à dos modelos padrão da família Gemma 4. Para aplicações que exigem a máxima qualidade, a recomendação oficial do Google é utilizar os modelos Gemma 4 autorregressivos.
Disponibilidade e Licença Aberta
O DiffusionGemma foi lançado sob uma licença Apache 2.0, caracterizando-o como um modelo de código aberto. Os pesos do modelo estão disponíveis para download e experimentação em plataformas como Hugging Face, Kaggle e no Vertex AI Model Garden do Google Cloud. Essa abertura incentiva a comunidade de desenvolvedores a explorar e inovar com a nova tecnologia, impulsionando ainda mais o avanço da IA generativa.
Contexto no Ecossistema Google AI
O DiffusionGemma integra a família de modelos Gemma, que são versões mais leves e abertas, construídas com a mesma tecnologia dos modelos Gemini, mas otimizadas para implantação em dispositivos locais. Enquanto os modelos Gemini 3.5 Flash e Omni foram os grandes destaques do Google I/O 2026, focando em capacidades multimodais e agentes proativos para o ecossistema Google, o DiffusionGemma representa um avanço estratégico na eficiência da geração de texto para cenários específicos, especialmente aqueles que se beneficiam da execução local e da baixa latência. Essa diversificação de modelos demonstra a contínua aposta do Google em diferentes frentes da inteligência artificial para atender a um vasto leque de necessidades e aplicações.
