AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
AgentAtlas aborda la fragmentación en los puntos de referencia utilizados para evaluar los agentes de modelos de lenguaje grandes (LLM), que actualmente enfatizan diferentes unidades de medida. Introduce cuatro componentes, incluyendo una taxonomía de decisiones de control de seis estados, una taxonomía de fallas de trayectoria de nueve categorías y una metodología para medir la capacidad del modelo basada en la supervisión del prompt.