← heapsort-ai

Benchmarks

67 items

RESEARCHarXiv CS.AI·vor 19T

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas befasst sich mit der Fragmentierung der Benchmarks zur Bewertung von Large Language Model (LLM)-Agenten, die derzeit verschiedene Maßeinheiten betonen. Es werden vier Komponenten eingeführt, darunter eine sechszuständische Steuerungsentscheidungs-Taxonomie, eine neunkategorische Trajektorienfehler-Taxonomie und eine Methodik zur Messung der Modellfähigkeit basierend auf der Prompt-Supervision.

27
NEWSQwen Blog·4/28/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

23