← heapsort-ai

Taxonomy

3 items

RESEARCHarXiv CS.AI·vor 19T

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas befasst sich mit der Fragmentierung der Benchmarks zur Bewertung von Large Language Model (LLM)-Agenten, die derzeit verschiedene Maßeinheiten betonen. Es werden vier Komponenten eingeführt, darunter eine sechszuständische Steuerungsentscheidungs-Taxonomie, eine neunkategorische Trajektorienfehler-Taxonomie und eine Methodik zur Messung der Modellfähigkeit basierend auf der Prompt-Supervision.

27