Xiaomi lanza MiMo Ultra: un billón de parámetros a 1.000 tokens por segundo
MiMo-v2.5-Pro-UltraSpeed es el modelo más rápido lanzado hasta la fecha: un billón de parámetros que alcanza 1.000 tokens por segundo de throughput sostenido. Xiaomi entra de lleno en la guerra de la inferencia de alta velocidad.
Xiaomi acaba de lanzar MiMo-v2.5-Pro-UltraSpeed, un modelo de lenguaje de un billón de parámetros que alcanza 1.000 tokens por segundo de throughput sostenido. El anuncio, que está siendo trending hoy en Hacker News con casi 600 puntos, redefine el estado del arte en inferencia de alta velocidad y representa la entrada más ambiciosa de un fabricante de hardware de consumo en el espacio de los grandes modelos de lenguaje.
Los números
1T de parámetros. 1.000 tokens/s. Estos dos números son el titular, pero el contexto importa.
El throughput de 1.000 tokens/s se mide en condiciones de batch inference con hardware propio de Xiaomi —detalles técnicos que la compañía ha publicado junto con el modelo—. En inferencia de usuario único (el escenario más relevante para aplicaciones conversacionales), los números son diferentes, pero siguen siendo notablemente altos para el tamaño del modelo.
Para comparación: los modelos de clase similar en velocidad hasta ahora —Llama 3.1 405B, Mistral Large 2— no superaban los 200-300 tokens/s en configuraciones de producción estándar. La diferencia no es incremental.
Cómo lo han conseguido
Xiaomi no ha publicado todos los detalles técnicos, pero el paper que acompaña al lanzamiento apunta a tres innovaciones principales:
Arquitectura Mixture-of-Experts optimizada para inferencia. MiMo Ultra usa una variante de MoE donde los experts activos por token son dinámicamente seleccionados con un overhead de routing mínimo. El resultado es que el modelo tiene 1T de parámetros totales pero activa solo una fracción en cada forward pass.
Cuantización INT4 nativa con calibración por capa. La cuantización no es nueva, pero la implementación de Xiaomi aplica esquemas de calibración específicos por capa que preservan la calidad en las capas críticas mientras maximiza la compresión en las capas donde la pérdida de precisión es tolerable.
Hardware dedicado. Xiaomi ha desarrollado aceleradores propios —bajo el nombre en clave Surge X2— optimizados para la arquitectura específica de MiMo Ultra. Es el mismo camino que siguió Apple con los Apple Silicon y Google con las TPUs: controlar el stack completo para optimizar end-to-end.
El contexto geopolítico
Este lanzamiento no se puede leer sin el contexto de la competencia tecnológica entre China y EEUU. Xiaomi lanza MiMo Ultra en la misma semana en que Apple presenta Siri AI y OpenAI anuncia su IPO. No es coincidencia.
Los labs chinos —Xiaomi, Baidu, Alibaba, DeepSeek— están convergiendo en una estrategia clara: superar a los labs occidentales en eficiencia de inferencia, la dimensión donde las restricciones de acceso a hardware Nvidia H100/H200 son menos determinantes que en el entrenamiento.
Si no puedes tener los mejores chips para entrenar, puedes optimizar para hacer más con los chips que tienes. Y aparentemente, Xiaomi ha encontrado cómo hacerlo.
Disponibilidad
MiMo-v2.5-Pro-UltraSpeed está disponible hoy en Hugging Face bajo licencia Apache 2.0 para los pesos del modelo base. La versión de inferencia optimizada con los aceleradores Surge X2 está disponible via API en la plataforma cloud de Xiaomi, con acceso anticipado para desarrolladores en lista de espera.
El modelo base es open weights. El hardware que lo hace especial, no.
Noa Levi
Investigación IA
// Relacionados

Apple reinventa Siri con IA generativa en WWDC 2026

Agentes IA en producción: los 5 patrones de arquitectura que realmente funcionan
