Benchmarks

67 items

RESEARCHarXiv CS.AI·il y a 19j

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborde la fragmentation des benchmarks utilisés pour évaluer les agents de grands modèles linguistiques (LLM), qui mettent actuellement l'accent sur différentes unités de mesure. Il introduit quatre composants, dont une taxonomie de décision de contrôle à six états, une taxonomie d'échec de trajectoire à neuf catégories et une méthodologie pour mesurer la capacité du modèle basée sur la supervision du prompt.

evaluation Benchmarks Taxonomy AI agents

NEWSOpenAI Blog·il y a 26j

Databricks brings GPT-5.5 to enterprise agent workflows

Databricks utilise GPT-5.5 pour les flux de travail d'agents d'entreprise. Le modèle a établi un nouvel état de l'art sur le benchmark OfficeQA Pro.

Databricks AI Workflows GPT-5.5 Benchmarks

ARTICLEDEV.to AI·il y a 20j

oh-my-agent v2: Nine New Skills, First-Class Cursor, and an 80/100 Benchmark

oh-my-agent v2, la deuxième version majeure du framework d'agents de codage IA, introduit neuf nouvelles compétences et élève Cursor au rang de fournisseur de premier ordre. La boîte à outils a obtenu un score de 80/100 lors d'un nouveau benchmark, visant à résoudre les incohérences et à améliorer le comportement de l'agent.

software development AI Coding Agent frameworks AI tools

NEWS↑ trendingReddit r/LocalLLaMA·10/04/2026

GLM 5.1 tops the code arena rankings for open models

GLM 5.1 alcançou o topo das classificações da arena de código para modelos abertos. Isso indica sua alta performance e relevância no campo da IA.

GLM LLMs open models Benchmarks

NEWSQwen Blog·28/04/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

NEWSDEV.to AI·09/04/2026

OpenDataLoader: THE #1 OPEN SOURCE PARSER IN REAL BENCHMARKS

A equipe OpenDataLoader publicou os resultados completos de seu benchmark, apresentando seu parser de PDF open source como o número 1 em desempenho real. O OpenDataLoader oferece modos híbrido e baseado em regras, demonstrando velocidade e qualidade superiores em comparação com outros 12 parsers.

Document AI Benchmarks PDF Parsing

NEWSMIT Tech Review AI·01/04/2026

The Download: gig workers training humanoids, and better AI benchmarks

O título menciona o envolvimento de trabalhadores temporários no treinamento de humanoides e a necessidade de melhores métricas para avaliação de IA.

humanoids AI training gig economy Benchmarks