Benchmarks

67 items

RESEARCHarXiv CS.AI·19d ago

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas addresses the fragmentation in benchmarks used to evaluate large language model (LLM) agents, which currently emphasize different units of measurement. It introduces four components, including a six-state control-decision taxonomy, a nine-category trajectory-failure taxonomy, and a methodology to measure model capability based on prompt supervision.

evaluation Benchmarks Taxonomy AI agents

NEWSOpenAI Blog·26d ago

Databricks brings GPT-5.5 to enterprise agent workflows

Databricks is leveraging GPT-5.5 for enterprise agent workflows. The model achieved a new state of the art on the OfficeQA Pro benchmark.

Databricks AI Workflows GPT-5.5 Benchmarks

ARTICLEDEV.to AI·20d ago

oh-my-agent v2: Nine New Skills, First-Class Cursor, and an 80/100 Benchmark

oh-my-agent v2, the second major release of the AI coding agent framework, introduces nine new skills and elevates Cursor to a first-class vendor. The toolkit achieved an 80/100 score on a new benchmark, aiming to address inconsistencies and improve agent behavior.

software development AI Coding Agent frameworks AI tools

NEWS↑ trendingReddit r/LocalLLaMA·4/10/2026

GLM 5.1 tops the code arena rankings for open models

GLM 5.1 alcançou o topo das classificações da arena de código para modelos abertos. Isso indica sua alta performance e relevância no campo da IA.

GLM LLMs open models Benchmarks

NEWSQwen Blog·4/28/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

NEWSDEV.to AI·4/9/2026

OpenDataLoader: THE #1 OPEN SOURCE PARSER IN REAL BENCHMARKS

A equipe OpenDataLoader publicou os resultados completos de seu benchmark, apresentando seu parser de PDF open source como o número 1 em desempenho real. O OpenDataLoader oferece modos híbrido e baseado em regras, demonstrando velocidade e qualidade superiores em comparação com outros 12 parsers.

Document AI Benchmarks PDF Parsing

NEWSMIT Tech Review AI·4/1/2026

The Download: gig workers training humanoids, and better AI benchmarks

O título menciona o envolvimento de trabalhadores temporários no treinamento de humanoides e a necessidade de melhores métricas para avaliação de IA.

humanoids AI training gig economy Benchmarks