RESEARCH27

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

arXiv CS.AI·21 de mayo de 2026

AgentAtlas aborda la fragmentación en los puntos de referencia utilizados para evaluar los agentes de modelos de lenguaje grandes (LLM), que actualmente enfatizan diferentes unidades de medida. Introduce cuatro componentes, incluyendo una taxonomía de decisiones de control de seis estados, una taxonomía de fallas de trayectoria de nueve categorías y una metodología para medir la capacidad del modelo basada en la supervisión del prompt.

evaluation Benchmarks Taxonomy AI agents LLM

Leer original ↗