Gemini Robotics-ER 1.6: El nuevo "cerebro" de DeepMind que ayuda a los robots a entender lo que ven

Si alguna vez viste un video de un robot fallando estrepitosamente en una tarea simple porque algo en su entorno cambió de lugar, sabes cuál es el verdadero cuello de botella en la robótica actual. El problema no es hacer que las máquinas se muevan, sino lograr que entiendan el espacio físico que las rodea y las consecuencias de interactuar con él.

Justamente para atacar ese problema, Google DeepMind acaba de lanzar Gemini Robotics-ER 1.6, una actualización profunda de su modelo de razonamiento para agentes físicos que ya está disponible para desarrolladores a través de Google AI Studio y la API de Gemini.

A diferencia de la versión 1.5 (lanzada en septiembre de 2025), esta actualización no se queda solo en mover objetos de un punto a otro. Actúa como un cerebro de alto nivel que procesa lo que ven las cámaras del robot, aplica lógica espacial y le dice a los sistemas mecánicos inferiores exactamente qué hacer.

Las tres grandes novedades que trae

Lo más interesante de esta versión no son promesas abstractas, sino capacidades muy prácticas pensadas para el uso industrial:

Lectura de instrumentos mediante "visión agéntica": Esta es la función estrella. El modelo ahora puede mirar un manómetro analógico, un medidor de nivel de líquido o una pantalla digital industrial, hacer zoom en los detalles y usar ejecución de código interna para calcular las proporciones exactas y dar una lectura precisa a los operadores.
Lógica espacial al milímetro: Mejoraron la precisión con la que el modelo detecta y señala objetos en el mundo real. Ahora un robot puede entender instrucciones complejas como "señala todos los objetos que quepan dentro de la caja azul" o evaluar si puede mover un ítem de forma segura respetando su peso, espacio o fragilidad.
Comprensión multicámara y uso de herramientas: En lugar de confundirse si un objeto queda tapado por otro, el modelo ahora cruza la información de varias cámaras al mismo tiempo para saber si una tarea se completó con éxito. Además, funciona como un director de orquesta que puede usar herramientas externas; por ejemplo, puede hacer una búsqueda en Google de forma autónoma si le falta información de contexto para resolver un problema.

Un aliado de Boston Dynamics, no un competidor

Había algunos rumores de que DeepMind quería lanzar hardware para competir con empresas de robótica consolidadas, pero la realidad es muy distinta. De hecho, Boston Dynamics es uno de los socios clave en este lanzamiento.

Marco da Silva, vicepresidente encargado del famoso perro robot Spot en Boston Dynamics, confirmó que están integrando Gemini Robotics-ER 1.6 en su sistema. Gracias a esta nueva capacidad de leer instrumentos y razonar espacialmente, Spot ahora puede hacer rondas de inspección en fábricas y enfrentar obstáculos físicos de manera completamente autónoma.

A pesar de este gran salto, el modelo no es infalible. Los propios investigadores reconocen que cuando el entorno físico del robot sufre cambios drásticos o caóticos en tiempo real, el rendimiento aún puede decaer. El verdadero objetivo sigue siendo lograr un razonamiento 100% fluido ante los imprevistos, pero definitivamente, Gemini Robotics-ER 1.6 es un empujón enorme en la dirección correcta para la automatización industrial.

Google DeepMind lanza Gemini Robotics-ER 1.6: mejoras en razonamiento robótico

¿Por qué te importa esto?

Gemini Robotics-ER 1.6: El nuevo "cerebro" de DeepMind que ayuda a los robots a entender lo que ven

Las tres grandes novedades que trae

Un aliado de Boston Dynamics, no un competidor