Las ventanas de contexto LLM llegan a 10M de tokens vía sparse attention

Una técnica clásica vuelve a ser noticia: cómo se puede mantener calidad sin disparar el coste de cómputo.

Noa Levi
··6,480 views

Sparse attention no es nuevo. Lo nuevo es la combinación de sparse attention con caché agresivo de KV y hardware específico para gestionar ventanas de contexto de 10 millones de tokens a un coste que empieza a ser viable en producción. Esta semana varios labs publicaron simultáneamente benchmarks sobre esta combinación y los números merecen atención.

LLM contexto largo sparse attention

La ventana de contexto ha sido uno de los caballos de batalla de los LLMs desde el principio. Los primeros modelos GPT trabajaban con ventanas de 2.048 tokens. GPT-4 llegó a 128K. Claude 3 escaló a 200K. Y ahora varios modelos de investigación están demostrando 10 millones de tokens con calidad razonable en las tareas de recuperación de información.

El problema con los contextos largos clásicos

El mecanismo de atención estándar ("full attention") tiene un coste cuadrático respecto al largo del contexto: doblar la longitud cuadruplica el cómputo. A 10 millones de tokens, eso es computacionalmente imposible con hardware actual incluso para inferencia de un solo usuario.

Sparse attention resuelve esto haciendo que cada token solo atienda a un subconjunto del contexto — no a todos los demás tokens. El truco está en qué subconjunto elegir: si el sistema es bueno eligiendo qué partes son relevantes, la calidad no cae significativamente.

La combinación que está funcionando

Contexto largo eficiente = Sparse Attention + KV Cache comprimido + Hardware consciente

Sparse Attention por bloques: en lugar de atención completamente aleatoria, se usa una combinación de atención local (tokens cercanos), atención global (tokens especiales designados como "summary tokens") y atención aleatoria esparsa. Este patrón preserva la mayor parte de la calidad.

KV Cache comprimido: almacenar el caché de claves y valores de todos los tokens de 10M en memoria GPU es inviable. Las técnicas de cuantización del caché a 4 bits y la paginación del caché con offloading a CPU permiten gestionar ventanas enormes con presupuestos de VRAM razonables.

Hardware específico: los nuevos aceleradores de Cerebras y los últimos dies de NVIDIA incluyen unidades específicas para operaciones de sparse attention que reducen drásticamente el tiempo de procesamiento.

Para qué sirve realmente

La aplicación más inmediata no es el chat, sino el análisis de documentos completos: repositorios de código enteros, datasets de investigación, libros, bases de conocimiento corporativas. Poder enviar un repo completo al contexto y preguntar sobre él sin chunking ni RAG es un cambio cualitativo en cómo se construyen las aplicaciones.

TAGS

#attention#long context#eficiencia
Share

Noa Levi

Investigación IA

// Related

Las ventanas de contexto LLM llegan a 10M de tokens vía sparse attention — SYNTHNODE