Multiverse presenta un modelo de lenguaje de OpenAI comprimido diseñado para reducir las necesidades de memoria y los costes de infraestructura de IA

La empresa española de inteligencia artificial, Multiverse Computing, ha lanzado HyperNova 60B 2602. Esta es una versión comprimida del modelo gpt-oss-120B de OpenAI y la ha publicado de forma gratuita en Hugging Face.

Esta nueva versión reduce las necesidades de memoria del modelo original de 61GB a solo 32GB. A pesar de esta reducción del 50% en tamaño, Multiverse afirma que mantiene un rendimiento casi idéntico en tareas de uso de herramientas (tool-calling).

En teoría, esto significa que un modelo que antes requería una infraestructura potente ahora puede ejecutarse con mucho menos hardware. Para desarrolladores con presupuestos limitados o preocupaciones energéticas, esto es una ventaja potencialmente enorme.

La tecnología CompactifAI

Multiverse asegura mejoras en pruebas específicas para agentes de IA en comparación con su lanzamiento anterior comprimido. Afirman que HyperNova 60B 2602 ofrece una mejora de 5x en Tau2-Bench y de 2x en Terminal Bench Hard. Estas pruebas miden el uso de herramientas y flujos de trabajo de programación, no solo respuestas de texto simples.

La tecnología CompactifAI de la compañía reestructura las matrices de pesos de los transformadores utilizando redes de tensores inspiradas en la física cuántica. Multiverse cree que una compresión efectiva es una alternativa a simplemente construir modelos cada vez más grandes, vinculando esta visión a los debates europeos sobre la IA soberana, los límites de infraestructura y el uso energético.

¿Cómo se puede comprimir un LLM?

Multiverse Computing comprime los grandes modelos de lenguaje usando su tecnología propietaria CompactifAI. En lugar de simplemente eliminar parámetros, CompactifAI reestructura las matrices de pesos internas de los modelos transformer en representaciones de redes de tensores muy eficientes. Esta reformulación matemática captura correlaciones entre parámetros y elimina redundancia estructural.

LEAR El insomnio y los medicamentos para dormir aumentan el riesgo de discapacidad en adultos mayores

El proceso se aplica después del entrenamiento, por lo que no es necesario reentrenar el modelo original ni se requiere acceso a sus datos de entrenamiento. Con este enfoque, CompactifAI puede reducir el uso de memoria hasta aproximadamente un 93% y disminuir significativamente el número de parámetros, manteniendo un buen rendimiento. Los modelos comprimidos resultantes son más pequeños, rápidos, eficientes energéticamente y más fáciles de implementar.

¿Se puede aplicar a cualquier LLM?

Funciona en modelos de lenguaje grandes basados en transformadores, siempre que se tenga acceso a sus pesos. La tecnología es independiente de la arquitectura dentro de la familia transformer y no requiere cambios en su comportamiento externo o APIs. La efectividad de la compresión depende del nivel de redundancia en el modelo. Los modelos grandes y sobreparametrizados suelen ofrecer el mayor potencial.

El principal desafío técnico es preservar la precisión del modelo mientras se logran altas tasas de compresión. Otro reto es garantizar que los modelos comprimidos mantengan su robustez en diferentes tareas. Finalmente, la compresión debe optimizarse para distintos entornos de despliegue.

Una buena analogía

Reescribir el plano, no quitar ladrillos: CompactifAI no solo elimina partes de un modelo. En su lugar, reescribe el plano matemático para que la misma estructura se represente de manera más eficiente. Es como rediseñar la estructura interna de un edificio para que use mucho menos material sin perder fuerza.

¿Cómo se determina la pérdida de precisión?

La pérdida de precisión se determina comparando el modelo comprimido con el original en las mismas tareas y métricas, midiendo el cambio. En la práctica, esto incluye evaluaciones de uso de herramientas. Reducir la pérdida de capacidad aquí permite flujos de trabajo más avanzados y aplicaciones de programación.

LEAR La comunicación clave para la primera victoria de ZUS Coffee

¿Trabajan otras empresas en esto?

La técnica de compresión de Multiverse Computing es única, basada en la investigación en redes de tensores inspiradas en la cuántica de su cofundador y CEO, Román Orús. Existen otras técnicas para comprimir modelos de IA, pero conllevan una pérdida de precisión mucho mayor.

El futuro de esta compresión

Esta técnica se puede aplicar a futuros LLMs. En el futuro, dispositivos como coches, teléfonos o portátiles podrían ejecutar modelos de IA pequeños o nano preinstalados en su hardware.

¿Es independiente del hardware? ¿Funciona mejor con algunos?

Sí, es independiente del hardware a nivel de modelo. La velocidad de inferencia depende de cuál era el factor limitante antes: si era la memoria, un modelo más pequeño suele ejecutarse mucho más rápido en el mismo hardware. No requiere un ASIC, pero las GPU normalmente ofrecen el mayor rendimiento.

¿En qué se basa la compresión?

CompactifAI se basa en la redundancia en las matrices de pesos de los transformadores ya entrenados. En lugar de una compresión genérica (como ZIP), utiliza una factorización consciente del modelo (redes de tensores inspiradas en la cuántica) para reescribir matrices grandes en una forma estructurada y más pequeña, mitigando la pérdida de precisión.

¿Qué impide que otros copien la técnica?

El conocimiento técnico necesario para lograr tasas de compresión tan altas sin sacrificar precisión es lo que impide a otros copiar la técnica. CompactifAI puede reducir el tamaño del modelo hasta un 95% con solo un 2-3% de pérdida de precisión, frente al estándar de la industria de un 20-30% de pérdida tras solo un 50-60% de compresión.

LEAR Avances en el Entrenamiento Cerebral Ofrecen Esperanza para la Recuperación del COVID Prolongado