Siguenos en

NVIDIA presenta DFlash, una tecnología que acelera hasta 15 veces la inferencia de IA en Blackwell

·
·

NVIDIA ha mostrado DFlash, un nuevo sistema de decodificación especulativa capaz de multiplicar hasta por 15 el rendimiento de los modelos de inteligencia artificial sobre la arquitectura Blackwell, mejorando significativamente la velocidad de respuesta de agentes de IA y modelos generativos.


NVIDIA ha anunciado importantes avances en inferencia de inteligencia artificial gracias a DFlash, una tecnología de código abierto diseñada para optimizar la generación de tokens en modelos de lenguaje de gran tamaño (LLMs).

La solución ha sido desarrollada para aprovechar al máximo la potencia de los nuevos chips NVIDIA Blackwell y promete una mejora de hasta 15 veces en el rendimiento de inferencia manteniendo niveles similares de interactividad para el usuario.

El desafío de la inferencia en los modelos de IA

Los modelos generativos actuales producen texto de forma secuencial, generando un token tras otro. Este proceso limita el aprovechamiento completo de la capacidad computacional de las GPU modernas y se convierte en un cuello de botella cuando múltiples usuarios interactúan simultáneamente con sistemas de IA.

DFlash aborda este problema mediante una técnica denominada speculative decoding, donde un modelo ligero predice varios tokens futuros mientras el modelo principal verifica esas predicciones en paralelo.

Hasta 15 veces más rendimiento en Blackwell

Según las pruebas realizadas por NVIDIA sobre sistemas DGX B300 equipados con ocho GPU Blackwell Ultra, DFlash logró aumentar el rendimiento de modelos como GPT-OSS-120B en más de 15 veces respecto a la inferencia tradicional.

Además, la tecnología supera también a EAGLE-3, uno de los sistemas de speculative decoding más avanzados hasta ahora, ofreciendo aproximadamente un 50% más de rendimiento en determinados escenarios.

En modelos más pequeños como Llama 3.1 8B, DFlash prácticamente duplica la velocidad obtenida por EAGLE-3.

Una tecnología clave para agentes de IA

NVIDIA destaca que la mejora será especialmente relevante para aplicaciones basadas en agentes autónomos, generación de código, razonamiento complejo, asistentes empresariales y sistemas multiagente.

Estos entornos requieren respuestas rápidas incluso cuando cientos o miles de usuarios interactúan simultáneamente con los modelos, algo que DFlash busca resolver aprovechando mejor la capacidad paralela de las GPU Blackwell.

Integración con los principales frameworks de IA

La adopción de DFlash será sencilla para desarrolladores gracias a su compatibilidad con plataformas ampliamente utilizadas como TensorRT-LLM, SGLang y vLLM.

Además, ya se han publicado 20 checkpoints de modelos optimizados en Hugging Face para familias populares como Llama, Qwen, Gemma, Kimi y GPT-OSS.

Esto permitirá que empresas y desarrolladores puedan implementar la tecnología sin necesidad de modificar sus aplicaciones actuales.

Blackwell continúa consolidando su liderazgo en IA

La llegada de DFlash refuerza la posición de NVIDIA en el mercado de infraestructura para inteligencia artificial.

Los chips Blackwell Ultra ofrecen hasta 15 petaflops de potencia de cálculo y están diseñados específicamente para cargas de trabajo relacionadas con IA generativa, agentes autónomos y modelos multimodales de próxima generación.

La combinación de hardware especializado y nuevas técnicas de inferencia como DFlash podría convertirse en uno de los factores clave para reducir costes operativos y mejorar la escalabilidad de los servicios de IA durante los próximos años.

Conclusión

DFlash representa uno de los avances más relevantes en optimización de inferencia para modelos de lenguaje. Con mejoras de rendimiento de hasta 15 veces sobre Blackwell, NVIDIA continúa ampliando su ventaja tecnológica en el sector de la inteligencia artificial y ofrece una herramienta que podría acelerar significativamente el despliegue masivo de agentes y aplicaciones basadas en IA.

RELACIONADO

CALENDARIO ECONÓMICO

Accede a nuestro calendario económico y mantente al día con los eventos clave.
Recientes
Próximos
spot_img

DESTACADO

TE INTERESA