Benchmarks

67 items

RESEARCHDEV.to AI·24/04/2026

Kimi K2.6 Benchmark: Results vs GPT-5.4, Claude, Gemini, and K2.5

Ce contenu analyse les résultats du benchmark Kimi K2.6 comparés à GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro et Kimi K2.5, en utilisant une table de référence standardisée. K2.6 démontre de solides performances en codage et en tâches d'agent, dépassant son prédécesseur et se rapprochant des modèles propriétaires de pointe.

AI models Benchmarks Kimi large language models

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]

L'auteur met en lumière le manque de discussion sur la normalisation de texte dans les modèles de synthèse vocale en streaming, où des erreurs surviennent lors de la prononciation de dates, d'URL et d'autres éléments. Il mentionne un benchmark comparant des modèles TTS commerciaux sur ces défis spécifiques.

AI models natural language processing Benchmarks Text-to-Speech

RESEARCH↑ trendingReddit r/MachineLearning·07/05/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Le Meta Superintelligence Lab présente ProgramBench, une initiative testant la capacité des IA avancées à recréer des programmes exécutables tels que ffmpeg et SQLite à partir de zéro, sans accès à Internet. Cette étude vise à explorer les limites de la génération de code par l'IA. La recherche se concentre sur l'évaluation de l'autonomie et de l'exhaustivité des modèles d'IA dans la synthèse de logiciels complexes.

program synthesis code generation Benchmarks AI programming

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

L'auteur examine pourquoi une recette spécifique de quantification Qwen3.6 27B INT8 Autoround surpasse les autres, observant que le modèle "réfléchit" moins mais fournit de meilleurs résultats lors des benchmarks. Il a ensuite reproduit cette performance avec une nouvelle quantification GGUF, notant que les deux obtiennent constamment des réponses plus rapidement que l'UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·26/04/2026

Confirmed: SWE Bench is now a benchmaxxed benchmark

Le titre annonce que SWE Bench, un benchmark pour l'évaluation de l'IA en ingénierie logicielle, a été confirmé comme un benchmark « benchmaxxed ». Cela suggère qu'il a atteint un statut de grande pertinence ou de saturation dans le domaine.

software-engineering-ai Model Evaluation Benchmarks

Confirmed: SWE Bench is now a benchmaxxed benchmark

RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost

Um teste de benchmark agentic revela que o modelo GLM 5.1 alcança desempenho similar ao Opus por um terço do custo em tarefas agentic, superando outros modelos testados. O autor enfatiza a relevância de testes em ambientes reais como o OpenClaw, classificando o GLM 5.1 como um dos principais modelos para agentes atualmente.

OpenClaw Benchmarks Agentic AI GLM 5.1

RESEARCH↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6 GGUF Benchmarks

Ce contenu présente les benchmarks de performance KLD pour les quants GGUF Qwen3.6-35B-A3B d'Unsloth, soulignant leur efficacité par rapport à l'espace disque. Il clarifie également que les mises à jour fréquentes des GGUF sont généralement dues à des corrections de bugs externes ou à des améliorations officielles, et non à des erreurs internes d'Unsloth.

LLMs quantization Benchmarks

RESEARCHarXiv CS.AI·il y a 1j

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.

mathematical reasoning LLMs datasets Benchmarks

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 est recommandé comme un remplacement viable pour Opus 4.7, capable de gérer 85% des tâches avec une bonne qualité, incluant la vision et une excellente utilisation du navigateur, particulièrement pour les tâches à long terme. L'auteur suggère que cela montre que les LLM de pointe n'apportent pas toujours de nouvelles fonctionnalités révolutionnaires, et que les solutions locales pourraient être préférables en raison des limites d'utilisation.

AI models LLMs Benchmarks Local AI

RESEARCH↑ trendingReddit r/LocalLLaMA·20/04/2026

Kimi K2.6

Ce contenu annonce la soumission de benchmarks pour Kimi K2.6 par un utilisateur, avec des liens vers la soumission et les commentaires.

Benchmarks AI model

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

L'auteur manifeste un vif intérêt à comprendre les GPU chinois modifiés, tels qu'une 4090 48GB, soulignant le manque d'informations dans le monde anglophone. Il recherche les expériences des utilisateurs concernant leurs performances, leur fiabilité, les particularités logicielles, les benchmarks et les prix, notamment pour les applications d'IA/LLM.

modding China tech GPU AI hardware

RESEARCHDEV.to AI·21/04/2026

MCP vs CLI for AI Agents: A Real AWS Benchmark (and Why the Popular Narrative Asks the Wrong Question)

Cet article présente un benchmark AWS comparant l'AWS CLI brute à l'awslabs.aws-api-mcp-server officiel pour les agents d'IA, concluant qu'un outil CLI bien conçu surpasse MCP. Il recadre la question de l'utilisation comme un compromis entre le temps d'ingénierie et les jetons d'entrée par exécution.

cloud computing AWS Benchmarks performance

ARTICLEDEV.to AI·il y a 3j

<think>

Ce contenu détaille les exigences pour un article technique analysant les performances et la tarification des modèles d'IA, en se concentrant sur des métriques telles que TTFT et tokens/sec. Il spécifie l'inclusion de données précises sur les prix et les modèles, les régions de test et des exemples de code pour une API globale, s'adressant à un public d'ingénieurs backend.

AI pricing API Benchmarks AI performance

RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

robustness LLMs Model Evaluation Reasoning

ARTICLEDEV.to AI·il y a 4j

<think>

Ce contenu est une ébauche de planification pour un article sur le test de modèles d'IA multimodale. L'auteur a l'intention de partager sa découverte personnelle, ses benchmarks et les données de prix de divers modèles.

AI models multimodal AI Testing learning

RESEARCHarXiv CS.AI·04/05/2026

Agentic AI for Trip Planning Optimization Application

Cette recherche présente un cadre d'IA agéntique pour optimiser la planification de trajets pour les véhicules intelligents, dépassant la simple faisabilité pour considérer des facteurs dynamiques comme le trafic et l'énergie. Il utilise un agent d'orchestration coordonnant des agents spécialisés et propose un nouveau jeu de données pour une évaluation objective, atteignant une précision significative sur le TOP Benchmark.

Optimization Intelligent Vehicles Benchmarks Agentic AI

RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

multimodal AI Reasoning Benchmarks large language models

RESEARCHarXiv CS.CL·07/04/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP Benchmarks Quality Assurance

ARTICLEDEV.to AI·14/04/2026

Opus 4.6 Hallucination Rate Hit 33% — Here's What Changed and How to Fix It

Les développeurs ont signalé un déclin notable de la qualité de codage de Claude Opus 4.6, des benchmarks indépendants confirmant que son taux d'hallucination a presque doublé pour atteindre 33%. L'article couvre les preuves, la cause première et les paramètres pour résoudre le problème de fabrication d'informations du modèle.

Claude Opus 4.6 hallucination AI quality Benchmarks