RESEARCH27

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

arXiv CS.AI·21. Mai 2026

AgentAtlas befasst sich mit der Fragmentierung der Benchmarks zur Bewertung von Large Language Model (LLM)-Agenten, die derzeit verschiedene Maßeinheiten betonen. Es werden vier Komponenten eingeführt, darunter eine sechszuständische Steuerungsentscheidungs-Taxonomie, eine neunkategorische Trajektorienfehler-Taxonomie und eine Methodik zur Messung der Modellfähigkeit basierend auf der Prompt-Supervision.

evaluation Benchmarks Taxonomy AI agents LLM

Original lesen ↗