← heapsort-ai

Taxonomy

3 items

RESEARCHarXiv CS.AI·20d atrás

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborda a fragmentação nos benchmarks usados para avaliar agentes de modelos de linguagem grandes (LLM), que atualmente enfatizam diferentes unidades de medida. Ele introduz quatro componentes, incluindo uma taxonomia de decisão de controle de seis estados, uma taxonomia de falha de trajetória de nove categorias e uma metodologia para medir a capacidade do modelo com base na supervisão do prompt.

27