← heapsort-ai

Benchmarks

67 items

RESEARCHarXiv CS.AI·hace 19d

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborda la fragmentación en los puntos de referencia utilizados para evaluar los agentes de modelos de lenguaje grandes (LLM), que actualmente enfatizan diferentes unidades de medida. Introduce cuatro componentes, incluyendo una taxonomía de decisiones de control de seis estados, una taxonomía de fallas de trayectoria de nueve categorías y una metodología para medir la capacidad del modelo basada en la supervisión del prompt.

27
NEWSQwen Blog·28/4/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

23