Google e Marvell negociam fabricar novos chips focados em reduzir o custo diário da IA
Manter modelos de inteligência artificial funcionando em escala global é extremamente caro. Até agora, a abordagem da indústria tem sido criar processadores poderosos para treinar esses modelos, um processo que leva semanas ou meses e consome muita energia. No entanto, o verdadeiro gasto a longo prazo vem depois: a inferência. Esse é o momento em que a IA já está pronta e precisa responder a milhões de consultas de usuários a cada segundo.
Para atacar diretamente esse problema de custos e eficiência em seus centros de dados, o Google está em conversas avançadas com a Marvell Technology para desenvolver dois novos chips sob medida.
O gargalo da memória e a solução da Marvell
Hoje em dia, um dos grandes problemas físicos nos servidores é o movimento de dados. Os processadores costumam perder tempo e energia simplesmente esperando que as informações cheguem da memória.
Segundo os relatórios mais recentes filtrados na indústria, o primeiro projeto dessa possível aliança é uma Unidade de Processamento de Memória (MPU). Em termos simples, é um chip complementar projetado para se conectar aos atuais processadores TPU do Google e retirar essa carga de trabalho. Ao se encarregar exclusivamente de gerenciar o tráfego da memória, o TPU principal fica livre para se concentrar apenas nos cálculos matemáticos pesados. Estima-se que o design dessa MPU possa estar pronto para a fase de testes em 2027.
Um TPU pensado apenas para respostas rápidas
O segundo projeto em pauta é um novo chip TPU construído especificamente para a fase de inferência.
É importante esclarecer que o Google não está tentando abandonar seus fabricantes atuais. A Broadcom continua e continuará sendo seu principal aliado para projetar os TPUs de altíssimo desempenho voltados para o treinamento de modelos massivos. Em contrapartida, a Marvell entraria para desempenhar outro papel: integrar a cadeia de suprimentos para criar um hardware mais econômico, eficiente e pensado exclusivamente para fornecer respostas cotidianas.
Ao diversificar quem fabrica quais peças, o Google busca duas coisas: depender menos das caríssimas placas da NVIDIA e otimizar o consumo energético de seus servidores. Se essa estratégia funcionar, não apenas melhorará as margens de lucro do Google Cloud, mas permitirá que desenvolvedores e empresas operem suas aplicações de IA a um custo muito mais acessível no futuro.
