← heapsort-ai

Benchmarks

67 items

RESEARCHarXiv CS.AI·il y a 19j

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborde la fragmentation des benchmarks utilisés pour évaluer les agents de grands modèles linguistiques (LLM), qui mettent actuellement l'accent sur différentes unités de mesure. Il introduit quatre composants, dont une taxonomie de décision de contrôle à six états, une taxonomie d'échec de trajectoire à neuf catégories et une méthodologie pour mesurer la capacité du modèle basée sur la supervision du prompt.

27
NEWSQwen Blog·28/04/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

23