AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
AgentAtlas aborde la fragmentation des benchmarks utilisés pour évaluer les agents de grands modèles linguistiques (LLM), qui mettent actuellement l'accent sur différentes unités de mesure. Il introduit quatre composants, dont une taxonomie de décision de contrôle à six états, une taxonomie d'échec de trajectoire à neuf catégories et une méthodologie pour mesurer la capacité du modèle basée sur la supervision du prompt.