RESEARCH27
AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
arXiv CS.AI·21. Mai 2026
AgentAtlas befasst sich mit der Fragmentierung der Benchmarks zur Bewertung von Large Language Model (LLM)-Agenten, die derzeit verschiedene Maßeinheiten betonen. Es werden vier Komponenten eingeführt, darunter eine sechszuständische Steuerungsentscheidungs-Taxonomie, eine neunkategorische Trajektorienfehler-Taxonomie und eine Methodik zur Messung der Modellfähigkeit basierend auf der Prompt-Supervision.
Original lesen ↗