Benchmarks

67 items

RESEARCHarXiv CS.AI·vor 19T

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas befasst sich mit der Fragmentierung der Benchmarks zur Bewertung von Large Language Model (LLM)-Agenten, die derzeit verschiedene Maßeinheiten betonen. Es werden vier Komponenten eingeführt, darunter eine sechszuständische Steuerungsentscheidungs-Taxonomie, eine neunkategorische Trajektorienfehler-Taxonomie und eine Methodik zur Messung der Modellfähigkeit basierend auf der Prompt-Supervision.

evaluation Benchmarks Taxonomy AI agents

NEWSOpenAI Blog·vor 26T

Databricks brings GPT-5.5 to enterprise agent workflows

Databricks setzt GPT-5.5 für Unternehmensagenten-Workflows ein. Das Modell erreichte einen neuen Stand der Technik im OfficeQA Pro Benchmark.

Databricks AI Workflows GPT-5.5 Benchmarks

ARTICLEDEV.to AI·vor 20T

oh-my-agent v2: Nine New Skills, First-Class Cursor, and an 80/100 Benchmark

oh-my-agent v2, die zweite Hauptversion des KI-Codierungsagenten-Frameworks, führt neun neue Fähigkeiten ein und befördert Cursor zu einem erstklassigen Anbieter. Das Toolkit erreichte 80/100 Punkte in einem neuen Benchmark, um Inkonsistenzen zu beheben und das Agentenverhalten zu verbessern.

software development AI Coding Agent frameworks AI tools

NEWS↑ trendingReddit r/LocalLLaMA·4/10/2026

GLM 5.1 tops the code arena rankings for open models

GLM 5.1 alcançou o topo das classificações da arena de código para modelos abertos. Isso indica sua alta performance e relevância no campo da IA.

GLM LLMs open models Benchmarks

NEWSQwen Blog·4/28/2025

Qwen3: Think Deeper, Act Faster

Qwen3, a nova família de modelos de linguagem, foi lançada, com o modelo principal Qwen3-235B-A22B alcançando resultados competitivos em benchmarks. Modelos menores como Qwen3-30B-A3B e Qwen3-4B também demonstraram desempenho superior em comparação com outros modelos.

AI models Benchmarks MoE Qwen3

NEWSDEV.to AI·4/9/2026

OpenDataLoader: THE #1 OPEN SOURCE PARSER IN REAL BENCHMARKS

A equipe OpenDataLoader publicou os resultados completos de seu benchmark, apresentando seu parser de PDF open source como o número 1 em desempenho real. O OpenDataLoader oferece modos híbrido e baseado em regras, demonstrando velocidade e qualidade superiores em comparação com outros 12 parsers.

Document AI Benchmarks PDF Parsing

NEWSMIT Tech Review AI·4/1/2026

The Download: gig workers training humanoids, and better AI benchmarks

O título menciona o envolvimento de trabalhadores temporários no treinamento de humanoides e a necessidade de melhores métricas para avaliação de IA.

humanoids AI training gig economy Benchmarks