Intel y el Instituto Weizmann aceleran la IA con decodificación especulativa universal

Intel Labs y el Instituto Weizmann de Ciencias han presentado una innovación clave en decodificación especulativa, una técnica que permite acelerar la inferencia de modelos de lenguaje grandes (LLMs) sin pérdida de precisión. El avance fue revelado en la Conferencia Internacional sobre Aprendizaje Automático (ICML) 2025 en Vancouver, y ya está disponible en la biblioteca Hugging Face Transformers.

¿Qué es la decodificación especulativa?

Técnica que combina un modelo pequeño y rápido con uno grande y preciso
El modelo pequeño genera una secuencia tentativa de tokens
El modelo grande verifica esa secuencia, aceptando o corrigiendo los resultados
Permite generar múltiples tokens por paso, reduciendo el uso de recursos

Avance clave: interoperabilidad entre modelos

El nuevo método elimina la necesidad de vocabularios compartidos entre modelos
Permite combinar modelos de diferentes desarrolladores y ecosistemas
Introduce tres algoritmos que desacoplan la decodificación especulativa del alineamiento de vocabulario
Acelera la inferencia hasta 2.8 veces sin comprometer la calidad del resultado

Impacto y disponibilidad

Disponible como herramienta de código abierto en Hugging Face
Facilita el despliegue de IA en entornos cloud y edge, como móviles, drones y vehículos autónomos
Promueve la interoperabilidad, eficiencia y reducción de costes en aplicaciones generativas

Declaraciones destacadas

“Hemos resuelto una ineficiencia central en la IA generativa. Esta mejora ya está ayudando a los desarrolladores a construir aplicaciones más rápidas e inteligentes”, afirmó Oren Pereg, investigador senior en Intel Labs.

“Nuestros algoritmos desbloquean aceleraciones que antes solo estaban disponibles para organizaciones con modelos propios”, añadió Nadav Timor, estudiante de doctorado en el Instituto Weizmann.

Este avance convierte la decodificación especulativa en una herramienta universal, práctica y abierta, democratizando el acceso a aceleración avanzada en IA. Es un paso decisivo hacia modelos más rápidos, colaborativos y eficientes.

El artículo puede contener imprecisiones y/o errores, consulte la web del fabricante para obtener la principal información.

¿Qué es la decodificación especulativa?

Avance clave: interoperabilidad entre modelos

Impacto y disponibilidad

Declaraciones destacadas

Related posts