DiffusionGemma: El nuevo modelo de Google que escribe en bloques y no palabra por palabra
Olvídate de la clásica barrita parpadeando y la IA escribiendo palabra por palabra como si fuera una máquina de escribir. Google DeepMind acaba de lanzar (este junio de 2026) DiffusionGemma, un modelo de código abierto que propone una forma totalmente distinta de generar texto.
Hasta ahora, modelos gigantes como GPT-4 o Claude funcionaban de forma "autoregresiva", es decir, predecían la siguiente palabra basándose en la anterior. Era un proceso estrictamente lineal. DiffusionGemma hace algo totalmente distinto: toma un "lienzo" en blanco y lanza un bloque completo de 256 tokens (fragmentos de palabras) al mismo tiempo. Luego, como si fuera un editor humano repasando un borrador, refina todo el bloque en paralelo hasta que el texto tiene sentido. Es la misma lógica que usa la IA para generar imágenes, pero aplicada a las letras.
¿Por qué esto es tan importante?
Principalmente por la velocidad. Al procesar todo en paralelo, DiffusionGemma es hasta 4 veces más rápido que los modelos tradicionales. Hablamos de que puede escupir entre 700 y 1,000 tokens por segundo si lo corres en una buena tarjeta de video (está súper optimizado para las RTX de gama alta y los sistemas DGX de Nvidia).
Además, contrario a lo que se suele pensar con la IA avanzada, no necesitas una supercomputadora inalcanzable en la nube. Este modelo pertenece a la nueva familia Gemma 4 y utiliza una arquitectura Mixture of Experts (MoE) de 26 mil millones de parámetros. El truco es que solo "despierta" 3.8 mil millones de esos parámetros cuando le pides algo. Es liviano, eficiente y está pensado para que los desarrolladores lo corran de forma local, sin pagar por consumo de tokens.
¿Para qué sirve en la práctica?
Esta forma de pensar "en bloques" es ideal para tareas donde el texto no es lineal. Piensa en pedirle a la IA que edite una línea de código justo en medio de una función enorme, que ajuste un párrafo
