Gemini 3.5 Flash ahora toma el control de tu computadora: cómo funciona la nueva función de Google
Slug: gemini-3-5-flash-control-computadora-api Meta description: Google integró la función "Computer Use" en Gemini 3.5 Flash. Descubre cómo esta IA ahora puede mover el mouse, hacer clic y automatizar tareas reales en tu pantalla.
Pasamos buena parte de nuestra jornada laboral haciendo clics repetitivos: copiando datos de una ventana a otra, rellenando formularios interminables o navegando por menús redundantes. Google acaba de mover ficha para solucionar esto integrando de forma nativa el control de computadora en su modelo Gemini 3.5 Flash, a partir de este mes de junio de 2026.
Ya no estamos hablando de un simple chatbot que te responde con texto. Esta nueva capacidad le permite a Gemini "ver" tu interfaz gráfica y operar el mouse y el teclado casi como lo haría una persona.
¿Qué resuelve exactamente esta actualización?
Hasta hace poco, automatizar tareas visuales requería integraciones complejas o el uso de modelos experimentales separados (como lo fue en su momento Gemini 2.5). Ahora, la función viene integrada directamente en la API de Flash.
El objetivo es claro: sacar a los humanos del trabajo manual y repetitivo. Los desarrolladores pueden usar esta herramienta para crear asistentes que prueban software de manera automática, organizan bandejas de entrada, extraen información de plataformas web o manejan software administrativo que no tiene APIs propias.
Así es como opera bajo el capó
El funcionamiento es bastante lógico cuando lo desglosas. A través de la API, el sistema no toma el control mágico de tu PC. Lo que hace es recibir capturas de pantalla de tu monitor, analizar el estado visual de la interfaz y devolver una instrucción precisa (por ejemplo: "mover el cursor a las coordenadas X/Y", "hacer clic izquierdo" o "escribir este texto"). Luego, el programa que el desarrollador haya configurado ejecuta esa acción y le devuelve una nueva captura a Gemini para seguir con el proceso.
Es un flujo de trabajo asíncrono que requiere que los desarrolladores aprendan a armar el entorno de ejecución, pero que abre una puerta inmensa a la automatización de procesos de negocio.
La competencia directa y las barreras de entrada
Google no es el único jugando en esta liga. OpenAI lanzó GPT-5.5 en abril con un enfoque fuertísimo en tareas agénticas, y modelos de Anthropic ya traían capacidades similares de "Computer Use" desde hace tiempo. A nivel de usuario corporativo, Microsoft Copilot también sigue empujando fuerte la productividad asistida. Sin embargo, la apuesta de Google con Gemini 3.5 Flash es hacerlo más rápido, económico y nativo para quienes ya usan su ecosistema.
Por supuesto, darle a una IA el control de tu pantalla tiene sus riesgos. Existen limitaciones de seguridad importantes. Las mejores prácticas actuales exigen que cualquier acción crítica (como enviar un correo, aceptar un acuerdo o hacer un pago) requiera la confirmación manual de un humano. La IA puede preparar todo el terreno, pero tú sigues teniendo la última palabra antes de apretar el gatillo.
