GPT-5.5 iguala Claude Mythos em testes extremos de cibersegurança: IA a preço de liquidação
A inteligência artificial já está pronta para defender (ou atacar) nossas redes corporativas? Muito recentemente, vimos como a Anthropic abalou a indústria com Claude Mythos Preview, um modelo que demonstrou habilidades impressionantes para encontrar vulnerabilidades e realizar auditorias ofensivas. Mas a OpenAI não ficou de braços cruzados. Seu recente lançamento, GPT-5.5, acaba de demonstrar que pode jogar na mesma liga, igualando — e em alguns casos superando — seu rival em testes críticos.
Segundo as últimas avaliações realizadas pelo UK AI Security Institute (AISI), o GPT-5.5 conseguiu resultados que confirmam uma tendência: a IA de ponta começa a ter nível de hacker profissional. Durante os exigentes exercícios de "Capture the Flag" (simulações onde o modelo deve encontrar e explorar brechas de segurança ocultas), o modelo da OpenAI resolveu desafios de nível expert com um 71.4% de sucesso. Com esse número, superou por uma margem muito estreita os 68.6% que havia marcado o Mythos Preview.
Eficiência e custos: o verdadeiro atrativo
Além de quem leva a medalha de ouro, o que realmente importa para as equipes de desenvolvimento é o custo-benefício. Em um dos testes mais difíceis do AISI —que envolvia criar um desassemblador para decodificar um binário escrito em Rust—, o GPT-5.5 conseguiu resolver o problema de forma completamente autônoma em apenas 10 minutos e 22 segundos.
Qual é o custo da API para esse nível de trabalho técnico? Apenas $1.73 dólares. Para as empresas e startups que buscam integrar a detecção de ameaças em suas aplicações ou automatizar as respostas a incidentes, isso muda totalmente as regras do jogo. Já não é necessário um orçamento enorme para ter um assistente de segurança operando 24/7.
O limite atual: os sistemas industriais
No entanto, nem tudo é magia e ainda estamos longe de poder delegar todo o trabalho à máquina. Ambas as inteligências artificiais colidiram de frente contra a mesma parede: a famosa simulação "Cooling Tower".
Este teste recria um ataque de sete etapas contra o software de controle de uma planta elétrica real. Os resultados do instituto demonstraram que, quando o cenário industrial se torna complexo demais e exige a vinculação de múltiplas etapas de engenharia reversa sobre protocolos proprietários, a IA ainda se perde. A intuição humana continua sendo a principal linha de defesa quando as infraestruturas críticas estão em jogo.
O panorama para os criadores de software
O terreno é extremamente encorajador. Integrar ferramentas baseadas em GPT-5.5 ou Claude Mythos para automatizar auditorias, escanear código em busca de vulnerabilidades ou armar defesas preventivas já é uma realidade altamente acessível. É o momento perfeito para começar a experimentar com esses modelos e fortalecer a segurança de nossos ecossistemas digitais.
