DiffusionGemma: O novo modelo do Google que escreve em blocos e não palavra por palavra
Esqueça a clássica barrinha piscando e a IA escrevendo palavra por palavra como se fosse uma máquina de escrever. O Google DeepMind acaba de lançar (em junho de 2026) DiffusionGemma, um modelo de código aberto que propõe uma forma totalmente distinta de gerar texto.
Até agora, modelos gigantes como GPT-4 ou Claude funcionavam de forma "autoregressiva", ou seja, previam a próxima palavra com base na anterior. Era um processo estritamente linear. O DiffusionGemma faz algo totalmente diferente: pega uma "tela" em branco e lança um bloco completo de 256 tokens (fragmentos de palavras) ao mesmo tempo. Depois, como se fosse um editor humano revisando um rascunho, refina todo o bloco em paralelo até que o texto faça sentido. É a mesma lógica que a IA usa para gerar imagens, mas aplicada às letras.
Por que isso é tão importante?
Principalmente pela velocidade. Ao processar tudo em paralelo, o DiffusionGemma é até 4 vezes mais rápido do que os modelos tradicionais. Estamos falando que pode gerar entre 700 e 1.000 tokens por segundo se rodado em uma boa placa de vídeo (está super otimizado para as RTX de gama alta e os sistemas DGX da Nvidia).
Além disso, ao contrário do que se costuma pensar sobre IA avançada, você não precisa de uma supercomputadora inacessível na nuvem. Este modelo pertence à nova família Gemma 4 e utiliza uma arquitetura Mixture of Experts (MoE) de 26 bilhões de parâmetros. O truque é que ele só "acorda" 3,8 bilhões desses parâmetros quando você pede algo. É leve, eficiente e foi pensado para que os desenvolvedores o rodem localmente, sem pagar pelo consumo de tokens.
Para que serve na prática?
Essa forma de pensar "em blocos" é ideal para tarefas onde o texto não é linear. Pense em pedir para a IA editar uma linha de código bem no meio de uma função enorme, ou ajustar um parágrafo.
