GPT-5.5 iguala a Claude Mythos en pruebas extremas de ciberseguridad: IA a precio de remate
¿La inteligencia artificial ya está lista para defender (o atacar) nuestras redes corporativas? Hace muy poco vimos cómo Anthropic sacudió a la industria con Claude Mythos Preview, un modelo que demostró habilidades impresionantes para encontrar vulnerabilidades y realizar auditorías ofensivas. Pero OpenAI no se quedó de brazos cruzados. Su reciente lanzamiento, GPT-5.5, acaba de demostrar que puede jugar en la misma liga, igualando —y en algunos casos superando— a su rival en pruebas críticas.
Según las últimas evaluaciones realizadas por el UK AI Security Institute (AISI), GPT-5.5 ha logrado resultados que confirman una tendencia: la IA de frontera empieza a tener nivel de hacker profesional. Durante los exigentes ejercicios de "Capture the Flag" (simulaciones donde el modelo debe encontrar y explotar brechas de seguridad ocultas), el modelo de OpenAI resolvió desafíos de nivel experto con un 71.4% de éxito. Con esta cifra, superó por un margen muy estrecho el 68.6% que había marcado Mythos Preview.
Eficiencia y costos: el verdadero atractivo
Más allá de quién se lleva la medalla de oro, lo que realmente le importa a los equipos de desarrollo es el costo-beneficio. En una de las pruebas más difíciles del AISI —que implicaba crear un desensamblador para decodificar un binario escrito en Rust—, GPT-5.5 logró resolver el problema de forma completamente autónoma en apenas 10 minutos y 22 segundos.
¿El costo de la API por ese nivel de trabajo técnico? Apenas $1.73 dólares. Para las empresas y startups que buscan integrar la detección de amenazas en sus aplicaciones o automatizar las respuestas a incidentes, esto cambia totalmente las reglas del juego. Ya no hace falta un presupuesto enorme para tener un asistente de seguridad operando 24/7.
El límite actual: los sistemas industriales
Sin embargo, no todo es magia y todavía estamos lejos de poder delegarle todo el trabajo a la máquina. Ambas inteligencias artificiales se estrellaron de frente contra la misma pared: la famosa simulación "Cooling Tower".
Este test recrea un ataque de siete pasos contra el software de control de una planta eléctrica real. Los resultados del instituto demostraron que, cuando el escenario industrial se vuelve demasiado complejo y requiere encadenar múltiples pasos de ingeniería inversa sobre protocolos propietarios, la IA todavía se pierde. La intuición humana sigue siendo la principal línea de defensa cuando las infraestructuras críticas están en juego.
El panorama para los creadores de software
El terreno es sumamente alentador. Integrar herramientas basadas en GPT-5.5 o Claude Mythos para automatizar auditorías, escanear código en busca de vulnerabilidades o armar defensas preventivas ya es una realidad altamente accesible. Es el momento perfecto para empezar a experimentar con estos modelos y endurecer la seguridad de nuestros ecosistemas digitales.
