VoltarNotícia
Notícia21 de junho de 20262 min leitura

Google DeepMind lança DiffusionGemma: IA mais rápida e eficiente

R

Curadoria IA + Revisão Humana

Fonte original: arstechnica.com

Google DeepMind lança DiffusionGemma: IA mais rápida e eficiente
Gerado com IA

Por que isso importa para você?

DiffusionGemma da Google DeepMind revoluciona a geração de texto ao ser até 4 vezes mais rápida que modelos tradicionais. Isso significa que, se você trabalha em desenvolvimento, poderá otimizar seus projetos de IA, gerando conteúdo de maneira mais eficiente e a um custo menor, sem depender de infraestruturas complexas.

DiffusionGemma: O novo modelo do Google que escreve em blocos e não palavra por palavra

Esqueça a clássica barrinha piscando e a IA escrevendo palavra por palavra como se fosse uma máquina de escrever. O Google DeepMind acaba de lançar (em junho de 2026) DiffusionGemma, um modelo de código aberto que propõe uma forma totalmente distinta de gerar texto.

Até agora, modelos gigantes como GPT-4 ou Claude funcionavam de forma "autoregressiva", ou seja, previam a próxima palavra com base na anterior. Era um processo estritamente linear. O DiffusionGemma faz algo totalmente diferente: pega uma "tela" em branco e lança um bloco completo de 256 tokens (fragmentos de palavras) ao mesmo tempo. Depois, como se fosse um editor humano revisando um rascunho, refina todo o bloco em paralelo até que o texto faça sentido. É a mesma lógica que a IA usa para gerar imagens, mas aplicada às letras.

Por que isso é tão importante?

Principalmente pela velocidade. Ao processar tudo em paralelo, o DiffusionGemma é até 4 vezes mais rápido do que os modelos tradicionais. Estamos falando que pode gerar entre 700 e 1.000 tokens por segundo se rodado em uma boa placa de vídeo (está super otimizado para as RTX de gama alta e os sistemas DGX da Nvidia).

Além disso, ao contrário do que se costuma pensar sobre IA avançada, você não precisa de uma supercomputadora inacessível na nuvem. Este modelo pertence à nova família Gemma 4 e utiliza uma arquitetura Mixture of Experts (MoE) de 26 bilhões de parâmetros. O truque é que ele só "acorda" 3,8 bilhões desses parâmetros quando você pede algo. É leve, eficiente e foi pensado para que os desenvolvedores o rodem localmente, sem pagar pelo consumo de tokens.

Para que serve na prática?

Essa forma de pensar "em blocos" é ideal para tarefas onde o texto não é linear. Pense em pedir para a IA editar uma linha de código bem no meio de uma função enorme, ou ajustar um parágrafo.