Gemini 3.5 Flash agora assume o controle do seu computador: como funciona a nova função do Google
Slug: gemini-3-5-flash-controle-computador-api
Meta description: O Google integrou a função "Uso do Computador" no Gemini 3.5 Flash. Descubra como essa IA agora pode mover o mouse, clicar e automatizar tarefas reais na sua tela.
Passamos boa parte da nossa jornada de trabalho fazendo cliques repetitivos: copiando dados de uma janela para outra, preenchendo formulários intermináveis ou navegando por menus redundantes. O Google acabou de dar um passo para resolver isso integrando de forma nativa o controle do computador em seu modelo Gemini 3.5 Flash, a partir deste mês de junho de 2026.
Já não estamos falando de um simples chatbot que te responde com texto. Essa nova capacidade permite que o Gemini "veja" sua interface gráfica e opere o mouse e o teclado quase como faria uma pessoa.
O que exatamente esta atualização resolve?
Até pouco tempo atrás, automatizar tarefas visuais exigia integrações complexas ou o uso de modelos experimentais separados (como foi o caso do Gemini 2.5). Agora, a função vem integrada diretamente na API do Flash.
O objetivo é claro: tirar os humanos do trabalho manual e repetitivo. Os desenvolvedores podem usar essa ferramenta para criar assistentes que testam software de maneira automática, organizam caixas de entrada, extraem informações de plataformas web ou gerenciam software administrativo que não possui APIs próprias.
Assim funciona por trás das cortinas
O funcionamento é bastante lógico quando você o descompõe. Através da API, o sistema não assume o controle mágico do seu PC. O que ele faz é receber capturas de tela do seu monitor, analisar o estado visual da interface e devolver uma instrução precisa (por exemplo: "mover o cursor para as coordenadas X/Y", "clicar com o botão esquerdo" ou "digitar este texto"). Em seguida, o programa que o desenvolvedor configurou executa essa ação e devolve uma nova captura para o Gemini para continuar o processo.
É um fluxo de trabalho assíncrono que exige que os desenvolvedores aprendam a montar o ambiente de execução, mas que abre uma porta imensa para a automação de processos de negócios.
A concorrência direta e as barreiras de entrada
O Google não é o único jogando nesta liga. A OpenAI lançou o GPT-5.5 em abril com um foco muito forte em tarefas agentes, e os modelos da Anthropic já traziam capacidades similares de "Uso de Computador" há bastante tempo. No nível do usuário corporativo, o Microsoft Copilot também continua a impulsionar fortemente a produtividade assistida. No entanto, a aposta do Google com o Gemini 3.5 Flash é torná-lo mais rápido, econômico e nativo para quem já usa seu ecossistema.
Claro, dar a uma IA o controle da sua tela tem seus riscos. Existem limitações de segurança importantes. As melhores práticas atuais exigem que qualquer ação crítica (como enviar um e-mail, aceitar um acordo ou fazer um pagamento) exija a confirmação manual de um humano. A IA pode preparar todo o terreno, mas você ainda tem a última palavra antes de apertar o gatilho.
