Benchmarks

67 items

RESEARCHDEV.to AI·4/24/2026

Kimi K2.6 Benchmark: Results vs GPT-5.4, Claude, Gemini, and K2.5

Dieser Inhalt analysiert die Benchmark-Ergebnisse von Kimi K2.6 im Vergleich zu GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro und Kimi K2.5, basierend auf einer standardisierten Referenztabelle. K2.6 zeigt eine starke Leistung in den Bereichen Codierung und Agentenarbeit, übertrifft seinen Vorgänger deutlich und schließt die Lücke zu führenden proprietären Modellen.

AI models Benchmarks Kimi large language models

ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]

Der Autor kritisiert die mangelnde Diskussion über Textnormalisierung in Streaming-Text-to-Speech-Modellen, wo Fehler bei der Aussprache von Daten, URLs und anderen grundlegenden Elementen auftreten. Er verweist auf einen Benchmark, der kommerzielle TTS-Modelle hinsichtlich dieser spezifischen Herausforderungen vergleicht.

AI models natural language processing Benchmarks Text-to-Speech

RESEARCH↑ trendingReddit r/MachineLearning·5/7/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Das Meta Superintelligence Lab stellt ProgramBench vor, eine Initiative, die die Fähigkeit fortschrittlicher KIs testet, ausführbare Programme wie ffmpeg und SQLite von Grund auf neu zu erstellen, ohne Internetzugang. Diese Studie zielt darauf ab, die Grenzen der KI-Codegenerierung zu erforschen. Die Forschung konzentriert sich auf die Bewertung der Autonomie und Vollständigkeit von KI-Modellen bei der komplexen Softwaresynthese.

program synthesis code generation Benchmarks AI programming

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

Der Autor untersucht, warum ein spezifisches Qwen3.6 27B INT8 Autoround Quantisierungsrezept andere übertrifft, wobei er beobachtet, dass das Modell weniger "denkt", aber bessere Ergebnisse in Benchmarks liefert. Er replizierte diese Leistung dann mit einer neuen GGUF-Quantisierung und stellte fest, dass beide durchweg schneller zu Antworten kommen als UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·4/26/2026

Confirmed: SWE Bench is now a benchmaxxed benchmark

Der Titel verkündet, dass SWE Bench, ein Benchmark zur Bewertung von KI in der Softwareentwicklung, als „benchmaxxed“ Benchmark bestätigt wurde. Dies deutet darauf hin, dass er einen hohen Relevanz- oder Sättigungsstatus in diesem Bereich erreicht hat.

software-engineering-ai Model Evaluation Benchmarks

Confirmed: SWE Bench is now a benchmaxxed benchmark

RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Dichte KI-Modelle übertreffen MoE derzeit insgesamt, aber MoE holt schnell auf, insbesondere bei Codierungs-Benchmarks. Für Benutzer mit 24 GB VRAM und dem Bedarf an großen Kontextfenstern wird MoE zu einer immer attraktiveren Option.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost

Um teste de benchmark agentic revela que o modelo GLM 5.1 alcança desempenho similar ao Opus por um terço do custo em tarefas agentic, superando outros modelos testados. O autor enfatiza a relevância de testes em ambientes reais como o OpenClaw, classificando o GLM 5.1 como um dos principais modelos para agentes atualmente.

OpenClaw Benchmarks Agentic AI GLM 5.1

RESEARCH↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6 GGUF Benchmarks

Dieser Inhalt präsentiert KLD-Performance-Benchmarks für Unsloth's Qwen3.6-35B-A3B GGUF-Quants, die deren Effizienz in Bezug auf KLD versus Speicherplatz hervorheben. Es wird zudem klargestellt, dass häufige GGUF-Updates in der Regel auf externe Fehlerbehebungen oder offizielle Verbesserungen zurückzuführen sind und nicht auf interne Fehler von Unsloth.

LLMs quantization Benchmarks

RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

mathematical reasoning LLMs datasets Benchmarks

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 wird als legitimer Ersatz für Opus 4.7 empfohlen, der etwa 85 % der Aufgaben mit guter Qualität bewältigen kann, Vision und eine sehr gute Browsernutzung bietet, besonders für langfristige Aufgaben. Der Autor deutet an, dass dies zeigt, dass Frontier-LLMs nicht unbedingt Neues bieten und lokale Lösungen aufgrund von Nutzungslimits attraktiver werden könnten.

AI models LLMs Benchmarks Local AI

RESEARCH↑ trendingReddit r/LocalLLaMA·4/20/2026

Kimi K2.6

Dieser Inhalt kündigt die Einreichung von Benchmarks für Kimi K2.6 durch einen Benutzer an und bietet Links zum Beitrag und zu Kommentaren.

Benchmarks AI model

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

Der Autor zeigt großes Interesse daran, modifizierte chinesische GPUs, wie eine 4090 mit 48 GB, zu verstehen, und hebt den Mangel an Informationen in der englischsprachigen Welt hervor. Er sucht nach Benutzererfahrungen bezüglich Leistung, Zuverlässigkeit, Software-Eigenheiten, Benchmarks und Preisen, insbesondere für KI/LLM-Anwendungen.

modding China tech GPU AI hardware

RESEARCHDEV.to AI·4/21/2026

MCP vs CLI for AI Agents: A Real AWS Benchmark (and Why the Popular Narrative Asks the Wrong Question)

Dieser Artikel präsentiert einen echten AWS-Benchmark, der die rohe AWS CLI mit dem offiziellen awslabs.aws-api-mcp-server für KI-Agenten vergleicht und zu dem Schluss kommt, dass ein gut konzipiertes CLI-Tool MCP übertrifft. Er definiert die Frage, welches zu verwenden ist, als Kompromiss zwischen Engineering-Zeit und Eingabetoken pro Lauf neu.

cloud computing AWS Benchmarks performance

ARTICLEDEV.to AI·vor 3T

<think>

Dieser Inhalt beschreibt die Anforderungen für einen technischen Artikel zur Analyse der Leistung und Preisgestaltung von KI-Modellen, mit Fokus auf Metriken wie TTFT und Tokens/Sek. Es werden genaue Preis- und Modellierungsdaten, Testregionen und Codebeispiele für eine globale API angegeben, die sich an ein Backend-Ingenieurpublikum richten.

AI pricing API Benchmarks AI performance

RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

robustness LLMs Model Evaluation Reasoning

ARTICLEDEV.to AI·vor 4T

<think>

Dieser Inhalt ist ein Planentwurf für einen Artikel über das Testen multimodaler KI-Modelle. Der Autor beabsichtigt, seine persönlichen Entdeckungen, Benchmarks und Preisdaten für verschiedene Modelle zu teilen.

AI models multimodal AI Testing learning

RESEARCHarXiv CS.AI·5/4/2026

Agentic AI for Trip Planning Optimization Application

Diese Forschung stellt ein agentenbasiertes KI-Framework zur Optimierung der Reiseplanung für intelligente Fahrzeuge vor, das über die bloße Machbarkeit hinaus dynamische Faktoren wie Verkehr und Energie berücksichtigt. Es verwendet einen Orchestrierungsagenten, der spezialisierte Agenten koordiniert, und bietet einen neuen Datensatz zur objektiven Bewertung, wodurch eine signifikante Genauigkeit im TOP Benchmark erreicht wird.

Optimization Intelligent Vehicles Benchmarks Agentic AI

RESEARCHarXiv CS.CL·4/24/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP wird als multimodales großes Sprachmodell zur Zuweisung der Verantwortung bei Verkehrsunfällen vorgestellt, das die Argumentation durch Multimodal Chain-of-Thought verbessert und juristisches Wissen über RAG integriert. Die Studie präsentiert zudem DecaTARA, einen umfassenden Decathlon-Benchmark mit 67.941 annotierten Videos und 195.821 Frage-Antwort-Paaren.

multimodal AI Reasoning Benchmarks large language models

RESEARCHarXiv CS.CL·4/7/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP Benchmarks Quality Assurance

ARTICLEDEV.to AI·4/14/2026

Opus 4.6 Hallucination Rate Hit 33% — Here's What Changed and How to Fix It

Entwickler haben einen deutlichen Rückgang der Kodierungsqualität von Claude Opus 4.6 gemeldet, wobei unabhängige Benchmarks bestätigen, dass seine Halluzinationsrate sich auf 33% fast verdoppelt hat. Der Artikel behandelt die Beweise, die Grundursache und die Einstellungen zur Behebung des Problems der Informationsfabrikation des Modells.

Claude Opus 4.6 hallucination AI quality Benchmarks