← heapsort-ai

Benchmarks

67 items

RESEARCHDEV.to AI·4/24/2026

Kimi K2.6 Benchmark: Results vs GPT-5.4, Claude, Gemini, and K2.5

Dieser Inhalt analysiert die Benchmark-Ergebnisse von Kimi K2.6 im Vergleich zu GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro und Kimi K2.5, basierend auf einer standardisierten Referenztabelle. K2.6 zeigt eine starke Leistung in den Bereichen Codierung und Agentenarbeit, übertrifft seinen Vorgänger deutlich und schließt die Lücke zu führenden proprietären Modellen.

61
ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]

Der Autor kritisiert die mangelnde Diskussion über Textnormalisierung in Streaming-Text-to-Speech-Modellen, wo Fehler bei der Aussprache von Daten, URLs und anderen grundlegenden Elementen auftreten. Er verweist auf einen Benchmark, der kommerzielle TTS-Modelle hinsichtlich dieser spezifischen Herausforderungen vergleicht.

42
RESEARCH↑ trendingReddit r/MachineLearning·5/7/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Das Meta Superintelligence Lab stellt ProgramBench vor, eine Initiative, die die Fähigkeit fortschrittlicher KIs testet, ausführbare Programme wie ffmpeg und SQLite von Grund auf neu zu erstellen, ohne Internetzugang. Diese Studie zielt darauf ab, die Grenzen der KI-Codegenerierung zu erforschen. Die Forschung konzentriert sich auf die Bewertung der Autonomie und Vollständigkeit von KI-Modellen bei der komplexen Softwaresynthese.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

Der Autor untersucht, warum ein spezifisches Qwen3.6 27B INT8 Autoround Quantisierungsrezept andere übertrifft, wobei er beobachtet, dass das Modell weniger "denkt", aber bessere Ergebnisse in Benchmarks liefert. Er replizierte diese Leistung dann mit einer neuen GGUF-Quantisierung und stellte fest, dass beide durchweg schneller zu Antworten kommen als UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost

Um teste de benchmark agentic revela que o modelo GLM 5.1 alcança desempenho similar ao Opus por um terço do custo em tarefas agentic, superando outros modelos testados. O autor enfatiza a relevância de testes em ambientes reais como o OpenClaw, classificando o GLM 5.1 como um dos principais modelos para agentes atualmente.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6 GGUF Benchmarks

Dieser Inhalt präsentiert KLD-Performance-Benchmarks für Unsloth's Qwen3.6-35B-A3B GGUF-Quants, die deren Effizienz in Bezug auf KLD versus Speicherplatz hervorheben. Es wird zudem klargestellt, dass häufige GGUF-Updates in der Regel auf externe Fehlerbehebungen oder offizielle Verbesserungen zurückzuführen sind und nicht auf interne Fehler von Unsloth.

Qwen3.6 GGUF Benchmarks
41
RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

40
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 wird als legitimer Ersatz für Opus 4.7 empfohlen, der etwa 85 % der Aufgaben mit guter Qualität bewältigen kann, Vision und eine sehr gute Browsernutzung bietet, besonders für langfristige Aufgaben. Der Autor deutet an, dass dies zeigt, dass Frontier-LLMs nicht unbedingt Neues bieten und lokale Lösungen aufgrund von Nutzungslimits attraktiver werden könnten.

36
RESEARCH↑ trendingReddit r/LocalLLaMA·4/20/2026

Kimi K2.6

Dieser Inhalt kündigt die Einreichung von Benchmarks für Kimi K2.6 durch einen Benutzer an und bietet Links zum Beitrag und zu Kommentaren.

Kimi K2.6
36
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

Der Autor zeigt großes Interesse daran, modifizierte chinesische GPUs, wie eine 4090 mit 48 GB, zu verstehen, und hebt den Mangel an Informationen in der englischsprachigen Welt hervor. Er sucht nach Benutzererfahrungen bezüglich Leistung, Zuverlässigkeit, Software-Eigenheiten, Benchmarks und Preisen, insbesondere für KI/LLM-Anwendungen.

33
RESEARCHDEV.to AI·4/21/2026

MCP vs CLI for AI Agents: A Real AWS Benchmark (and Why the Popular Narrative Asks the Wrong Question)

Dieser Artikel präsentiert einen echten AWS-Benchmark, der die rohe AWS CLI mit dem offiziellen awslabs.aws-api-mcp-server für KI-Agenten vergleicht und zu dem Schluss kommt, dass ein gut konzipiertes CLI-Tool MCP übertrifft. Er definiert die Frage, welches zu verwenden ist, als Kompromiss zwischen Engineering-Zeit und Eingabetoken pro Lauf neu.

33
ARTICLEDEV.to AI·vor 3T

<think>

Dieser Inhalt beschreibt die Anforderungen für einen technischen Artikel zur Analyse der Leistung und Preisgestaltung von KI-Modellen, mit Fokus auf Metriken wie TTFT und Tokens/Sek. Es werden genaue Preis- und Modellierungsdaten, Testregionen und Codebeispiele für eine globale API angegeben, die sich an ein Backend-Ingenieurpublikum richten.

30
RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

30
ARTICLEDEV.to AI·vor 4T

<think>

Dieser Inhalt ist ein Planentwurf für einen Artikel über das Testen multimodaler KI-Modelle. Der Autor beabsichtigt, seine persönlichen Entdeckungen, Benchmarks und Preisdaten für verschiedene Modelle zu teilen.

29
RESEARCHarXiv CS.AI·5/4/2026

Agentic AI for Trip Planning Optimization Application

Diese Forschung stellt ein agentenbasiertes KI-Framework zur Optimierung der Reiseplanung für intelligente Fahrzeuge vor, das über die bloße Machbarkeit hinaus dynamische Faktoren wie Verkehr und Energie berücksichtigt. Es verwendet einen Orchestrierungsagenten, der spezialisierte Agenten koordiniert, und bietet einen neuen Datensatz zur objektiven Bewertung, wodurch eine signifikante Genauigkeit im TOP Benchmark erreicht wird.

29
RESEARCHarXiv CS.CL·4/24/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP wird als multimodales großes Sprachmodell zur Zuweisung der Verantwortung bei Verkehrsunfällen vorgestellt, das die Argumentation durch Multimodal Chain-of-Thought verbessert und juristisches Wissen über RAG integriert. Die Studie präsentiert zudem DecaTARA, einen umfassenden Decathlon-Benchmark mit 67.941 annotierten Videos und 195.821 Frage-Antwort-Paaren.

29