SubQ: El modelo que desafía los límites de memoria con 12 millones de tokens

Si trabajas con inteligencia artificial, probablemente te has topado con el dolor de cabeza que supone el "cuello de botella cuadrático". Básicamente, mientras más largo es el texto que le das a un modelo de lenguaje tradicional, más se dispara el costo y el tiempo de procesamiento. Es un problema matemático puro. Ahora, una startup llamada Subquadratic acaba de lanzar SubQ, un modelo que promete haber resuelto este obstáculo.

¿Cómo funciona la atención subcuadrática?

El gran diferenciador de SubQ es su arquitectura. Los modelos que solemos usar hoy se vuelven lentos e ineficientes cuando intentan recordar contextos largos porque tienen que comparar cada palabra nueva con todas las anteriores.

SubQ utiliza una técnica llamada atención esparcida subcuadrática. Sin ponernos demasiado técnicos, esto significa que el modelo es capaz de procesar cadenas de texto larguísimas sin perder el hilo y, sobre todo, sin que el servidor se sature. Gracias a esto, lograron alcanzar una ventana de contexto de 12 millones de tokens. Para ponerlo en perspectiva, esto permite cargar docenas de libros, bases de código enteras o historiales financieros de años en un solo prompt, y el modelo los procesará a una velocidad constante.

29 millones para escalar la idea

Construir algo así desde cero no es barato, y el mercado lo sabe. Subquadratic acaba de cerrar una ronda de financiación inicial de 29 millones de dólares. Este capital va directamente a afinar los detalles técnicos de esta arquitectura y a pagar el inmenso poder de cómputo necesario para entrenar modelos de esta escala.

El respaldo de los inversores deja claro que hay un interés enorme en alternativas a la arquitectura Transformer tradicional, que empieza a mostrar sus límites de rentabilidad cuando hablamos de contextos masivos.

Qué significa esto para el día a día

Para los desarrolladores y las empresas que manejan grandes volúmenes de datos no estructurados, SubQ abre una puerta interesante. Si tienes que hacer procesamiento de lenguaje natural (NLP) pesado —como resumir transcripciones de reuniones de todo un mes, analizar contratos legales kilométricos o crear asistentes de escritura para formatos largos—, depender de modelos que cobran una fortuna por token procesado ya no será la única opción.

SubQ se perfila como una herramienta más eficiente y barata de correr a largo plazo. Queda por ver cómo se comporta en pruebas de rendimiento públicas frente a los gigantes del sector, pero la promesa de un contexto casi infinito y de bajo costo ya lo pone en el radar.

Subquadratic lanza SubQ: LLM con ventana de contexto de 12M

¿Por qué te importa esto?

SubQ: El modelo que desafía los límites de memoria con 12 millones de tokens

¿Cómo funciona la atención subcuadrática?

29 millones para escalar la idea

Qué significa esto para el día a día