Benchmarks

67 items

RESEARCHarXiv CS.AI·hace 19d

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborda la fragmentación en los puntos de referencia utilizados para evaluar los agentes de modelos de lenguaje grandes (LLM), que actualmente enfatizan diferentes unidades de medida. Introduce cuatro componentes, incluyendo una taxonomía de decisiones de control de seis estados, una taxonomía de fallas de trayectoria de nueve categorías y una metodología para medir la capacidad del modelo basada en la supervisión del prompt.

evaluation Benchmarks Taxonomy AI agents

NEWSOpenAI Blog·hace 26d

Databricks brings GPT-5.5 to enterprise agent workflows

Databricks utiliza GPT-5.5 para flujos de trabajo de agentes empresariales. El modelo estableció un nuevo estado del arte en el benchmark OfficeQA Pro.

Databricks AI Workflows GPT-5.5 Benchmarks

ARTICLEDEV.to AI·hace 20d

oh-my-agent v2: Nine New Skills, First-Class Cursor, and an 80/100 Benchmark

oh-my-agent v2, la segunda versión principal del framework de agentes de codificación de IA, incorpora nueve nuevas habilidades y promueve a Cursor como un proveedor de primera clase. La herramienta obtuvo una puntuación de 80/100 en un nuevo benchmark, buscando resolver inconsistencias y mejorar el comportamiento del agente.

Software Development AI Coding Agent frameworks AI tools

NEWS↑ trendingReddit r/LocalLLaMA·10/4/2026

GLM 5.1 tops the code arena rankings for open models

GLM 5.1 alcançou o topo das classificações da arena de código para modelos abertos. Isso indica sua alta performance e relevância no campo da IA.

GLM LLMs open models Benchmarks

NEWSQwen Blog·28/4/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

NEWSDEV.to AI·9/4/2026

OpenDataLoader: THE #1 OPEN SOURCE PARSER IN REAL BENCHMARKS

A equipe OpenDataLoader publicou os resultados completos de seu benchmark, apresentando seu parser de PDF open source como o número 1 em desempenho real. O OpenDataLoader oferece modos híbrido e baseado em regras, demonstrando velocidade e qualidade superiores em comparação com outros 12 parsers.

Document AI Benchmarks PDF Parsing

NEWSMIT Tech Review AI·1/4/2026

The Download: gig workers training humanoids, and better AI benchmarks

O título menciona o envolvimento de trabalhadores temporários no treinamento de humanoides e a necessidade de melhores métricas para avaliação de IA.

humanoids AI training gig economy Benchmarks