← heapsort-ai

Taxonomy

3 items

RESEARCHarXiv CS.AI·hace 19d

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborda la fragmentación en los puntos de referencia utilizados para evaluar los agentes de modelos de lenguaje grandes (LLM), que actualmente enfatizan diferentes unidades de medida. Introduce cuatro componentes, incluyendo una taxonomía de decisiones de control de seis estados, una taxonomía de fallas de trayectoria de nueve categorías y una metodología para medir la capacidad del modelo basada en la supervisión del prompt.

27