Un nuevo estándar para evaluar cómo los modelos de lenguaje interactúan con el ecosistema Solana
La Solana Foundation ha presentado Solana Bench, un marco de evaluación diseñado para medir la capacidad de los modelos de lenguaje (LLMs) en la construcción y ejecución de transacciones complejas dentro del ecosistema Solana.
El objetivo es establecer un estándar simple, reproducible y objetivo para analizar qué tan útiles son las herramientas de inteligencia artificial aplicadas al desarrollo en Solana.
Limitaciones de intentos anteriores
Hasta ahora, la fundación había explorado varios enfoques:
- Benchmarks de Q&A, demasiado costosos de mantener.
- Benchmarks de llamadas a herramientas en kits de agentes, frágiles y fragmentados.
- Financiación de toolkits individuales, difíciles de evaluar en términos de impacto real.
Cada intento aportó aprendizajes, pero ninguno ofrecía un método sostenible para medir resultados de manera clara y comparable.
Cómo funciona Solana Bench
Solana Bench introduce dos entornos de evaluación abiertos:
- Basic: busca maximizar la cantidad de instrucciones nuevas ejecutadas correctamente usando SDKs fundamentales como
@solana/web3.jso Anchor. - Swap: enfocado en el entorno DeFi, utilizando protocolos como Jupiter, Orca, Raydium, Phoenix y Meteora, además de SDKs preinstalados.
El sistema no mide ganancias o pérdidas, sino la competencia operativa en Solana, premiando la correcta composición de transacciones, la selección adecuada de cuentas, el uso correcto de SDKs, la recuperación de errores y la exploración transversal en distintos programas.
Inspiración y comparaciones
Los entornos de Solana Bench se inspiran en benchmarks abiertos como ClaudePlaysPokemon, TextQuest y Voyager de Nvidia.
Según la fundación, estos entornos ya han comenzado a evaluar el desempeño de LLMs líderes como Claude-Sonnet-4, GPT-5 y Gemini-2.5-Flash, midiendo su progreso en la ejecución de operaciones dentro de la blockchain Solana.



