NVIDIA DFlash IA: Mejora en la Inferencia IA

NVIDIA ha mostrado DFlash, un nuevo sistema de decodificación especulativa capaz de multiplicar hasta por 15 el rendimiento de los modelos de inteligencia artificial sobre la arquitectura Blackwell, mejorando significativamente la velocidad de respuesta de agentes de IA y modelos generativos.

NVIDIA ha anunciado importantes avances en inferencia de inteligencia artificial gracias a DFlash, una tecnología de código abierto diseñada para optimizar la generación de tokens en modelos de lenguaje de gran tamaño (LLMs).

La solución ha sido desarrollada para aprovechar al máximo la potencia de los nuevos chips NVIDIA Blackwell y promete una mejora de hasta 15 veces en el rendimiento de inferencia manteniendo niveles similares de interactividad para el usuario.

El desafío de la inferencia en los modelos de IA

Los modelos generativos actuales producen texto de forma secuencial, generando un token tras otro. Este proceso limita el aprovechamiento completo de la capacidad computacional de las GPU modernas y se convierte en un cuello de botella cuando múltiples usuarios interactúan simultáneamente con sistemas de IA.

DFlash aborda este problema mediante una técnica denominada speculative decoding, donde un modelo ligero predice varios tokens futuros mientras el modelo principal verifica esas predicciones en paralelo.

Hasta 15 veces más rendimiento en Blackwell

Según las pruebas realizadas por NVIDIA sobre sistemas DGX B300 equipados con ocho GPU Blackwell Ultra, DFlash logró aumentar el rendimiento de modelos como GPT-OSS-120B en más de 15 veces respecto a la inferencia tradicional.

Además, la tecnología supera también a EAGLE-3, uno de los sistemas de speculative decoding más avanzados hasta ahora, ofreciendo aproximadamente un 50% más de rendimiento en determinados escenarios.

En modelos más pequeños como Llama 3.1 8B, DFlash prácticamente duplica la velocidad obtenida por EAGLE-3.

Una tecnología clave para agentes de IA

NVIDIA destaca que la mejora será especialmente relevante para aplicaciones basadas en agentes autónomos, generación de código, razonamiento complejo, asistentes empresariales y sistemas multiagente.

Estos entornos requieren respuestas rápidas incluso cuando cientos o miles de usuarios interactúan simultáneamente con los modelos, algo que DFlash busca resolver aprovechando mejor la capacidad paralela de las GPU Blackwell.

Integración con los principales frameworks de IA

La adopción de DFlash será sencilla para desarrolladores gracias a su compatibilidad con plataformas ampliamente utilizadas como TensorRT-LLM, SGLang y vLLM.

Además, ya se han publicado 20 checkpoints de modelos optimizados en Hugging Face para familias populares como Llama, Qwen, Gemma, Kimi y GPT-OSS.

Esto permitirá que empresas y desarrolladores puedan implementar la tecnología sin necesidad de modificar sus aplicaciones actuales.

Blackwell continúa consolidando su liderazgo en IA

La llegada de DFlash refuerza la posición de NVIDIA en el mercado de infraestructura para inteligencia artificial.

Los chips Blackwell Ultra ofrecen hasta 15 petaflops de potencia de cálculo y están diseñados específicamente para cargas de trabajo relacionadas con IA generativa, agentes autónomos y modelos multimodales de próxima generación.

La combinación de hardware especializado y nuevas técnicas de inferencia como DFlash podría convertirse en uno de los factores clave para reducir costes operativos y mejorar la escalabilidad de los servicios de IA durante los próximos años.

Conclusión

DFlash representa uno de los avances más relevantes en optimización de inferencia para modelos de lenguaje. Con mejoras de rendimiento de hasta 15 veces sobre Blackwell, NVIDIA continúa ampliando su ventaja tecnológica en el sector de la inteligencia artificial y ofrece una herramienta que podría acelerar significativamente el despliegue masivo de agentes y aplicaciones basadas en IA.

NVIDIA presenta DFlash, una tecnología que acelera hasta 15 veces la inferencia de IA en Blackwell

NVIDIA ha mostrado DFlash, un nuevo sistema de decodificación especulativa capaz de multiplicar hasta por 15 el rendimiento de los modelos de inteligencia artificial sobre la arquitectura Blackwell, mejorando significativamente la velocidad de respuesta de agentes de IA y modelos generativos.

El desafío de la inferencia en los modelos de IA

Hasta 15 veces más rendimiento en Blackwell

Una tecnología clave para agentes de IA

Integración con los principales frameworks de IA

Blackwell continúa consolidando su liderazgo en IA

Conclusión

RELACIONADO

Deutsche Bank atribuye la caída de Bitcoin a la Fed, los ETF y la competencia de la inteligencia artificial

Allium recauda 40 millones de dólares para acelerar la infraestructura de datos blockchain

Ethereum Foundation reduce un 20% su plantilla y completa una profunda reestructuración interna

PST de Huma Finance llega a Fluid impulsado por Chainlink

CALENDARIO ECONÓMICO

DESTACADO

Allium recauda 40 millones de dólares para acelerar la infraestructura de datos blockchain

Ethereum Foundation reduce un 20% su plantilla y completa una profunda reestructuración interna

PST de Huma Finance llega a Fluid impulsado por Chainlink

TE INTERESA

Deutsche Bank atribuye la caída de Bitcoin a la Fed, los ETF y la competencia de la inteligencia artificial

Allium recauda 40 millones de dólares para acelerar la infraestructura de datos blockchain

Ethereum Foundation reduce un 20% su plantilla y completa una profunda reestructuración interna

Los comerciantes deben prepararse para la volatilidad de Solana entre niveles clave

Ripple y la SEC: El Tribunal da un Giro Histórico en el Caso de XRP

Última hora: EEUU ataca a Tether por posible lavado de Dinero