Solana Bench: Evaluando Modelos de Lenguaje

Un nuevo estándar para evaluar cómo los modelos de lenguaje interactúan con el ecosistema Solana

La Solana Foundation ha presentado Solana Bench, un marco de evaluación diseñado para medir la capacidad de los modelos de lenguaje (LLMs) en la construcción y ejecución de transacciones complejas dentro del ecosistema Solana.

El objetivo es establecer un estándar simple, reproducible y objetivo para analizar qué tan útiles son las herramientas de inteligencia artificial aplicadas al desarrollo en Solana.

Limitaciones de intentos anteriores

Hasta ahora, la fundación había explorado varios enfoques:

Benchmarks de Q&A, demasiado costosos de mantener.
Benchmarks de llamadas a herramientas en kits de agentes, frágiles y fragmentados.
Financiación de toolkits individuales, difíciles de evaluar en términos de impacto real.

Cada intento aportó aprendizajes, pero ninguno ofrecía un método sostenible para medir resultados de manera clara y comparable.

Cómo funciona Solana Bench

Solana Bench introduce dos entornos de evaluación abiertos:

Basic: busca maximizar la cantidad de instrucciones nuevas ejecutadas correctamente usando SDKs fundamentales como @solana/web3.js o Anchor.
Swap: enfocado en el entorno DeFi, utilizando protocolos como Jupiter, Orca, Raydium, Phoenix y Meteora, además de SDKs preinstalados.

El sistema no mide ganancias o pérdidas, sino la competencia operativa en Solana, premiando la correcta composición de transacciones, la selección adecuada de cuentas, el uso correcto de SDKs, la recuperación de errores y la exploración transversal en distintos programas.

Inspiración y comparaciones

Los entornos de Solana Bench se inspiran en benchmarks abiertos como ClaudePlaysPokemon, TextQuest y Voyager de Nvidia.

Según la fundación, estos entornos ya han comenzado a evaluar el desempeño de LLMs líderes como Claude-Sonnet-4, GPT-5 y Gemini-2.5-Flash, midiendo su progreso en la ejecución de operaciones dentro de la blockchain Solana.

Solana Foundation lanza “Solana Bench” para medir la competencia de LLMs en transacciones complejas

Un nuevo estándar para evaluar cómo los modelos de lenguaje interactúan con el ecosistema Solana

Limitaciones de intentos anteriores

Cómo funciona Solana Bench

Inspiración y comparaciones

RELACIONADO

XRP pierde soporte de $1.40 y cae a $1.38 bajo presión vendedora

Uniswap acelera Unichain con nuevas integraciones, herramientas DeFi y defensa regulatoria

Israel aprueba BILS, primer stablecoin oficial del shekel construido en Solana

Chiliz se expande a Solana y Base para impulsar trading de fan tokens rumbo al Mundial

CALENDARIO ECONÓMICO

DESTACADO

Uniswap acelera Unichain con nuevas integraciones, herramientas DeFi y defensa regulatoria

Israel aprueba BILS, primer stablecoin oficial del shekel construido en Solana

Chiliz se expande a Solana y Base para impulsar trading de fan tokens rumbo al Mundial

TE INTERESA

XRP pierde soporte de $1.40 y cae a $1.38 bajo presión vendedora

Uniswap acelera Unichain con nuevas integraciones, herramientas DeFi y defensa regulatoria

Israel aprueba BILS, primer stablecoin oficial del shekel construido en Solana

Los comerciantes deben prepararse para la volatilidad de Solana entre niveles clave

Ripple y la SEC: El Tribunal da un Giro Histórico en el Caso de XRP

Última hora: EEUU ataca a Tether por posible lavado de Dinero