RESEARCH27

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

arXiv CS.AI·21 de maio de 2026

AgentAtlas aborda a fragmentação nos benchmarks usados para avaliar agentes de modelos de linguagem grandes (LLM), que atualmente enfatizam diferentes unidades de medida. Ele introduz quatro componentes, incluindo uma taxonomia de decisão de controle de seis estados, uma taxonomia de falha de trajetória de nove categorias e uma metodologia para medir a capacidade do modelo com base na supervisão do prompt.

evaluation Benchmarks Taxonomy AI agents LLM

Ler original ↗