RESEARCH27
AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
arXiv CS.AI·21 de maio de 2026
AgentAtlas aborda a fragmentação nos benchmarks usados para avaliar agentes de modelos de linguagem grandes (LLM), que atualmente enfatizam diferentes unidades de medida. Ele introduz quatro componentes, incluindo uma taxonomia de decisão de controle de seis estados, uma taxonomia de falha de trajetória de nove categorias e uma metodologia para medir a capacidade do modelo com base na supervisão do prompt.
Ler original ↗