← heapsort-ai

Benchmarks

67 items

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]

L'auteur met en lumière le manque de discussion sur la normalisation de texte dans les modèles de synthèse vocale en streaming, où des erreurs surviennent lors de la prononciation de dates, d'URL et d'autres éléments. Il mentionne un benchmark comparant des modèles TTS commerciaux sur ces défis spécifiques.

42
RESEARCH↑ trendingReddit r/MachineLearning·07/05/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Le Meta Superintelligence Lab présente ProgramBench, une initiative testant la capacité des IA avancées à recréer des programmes exécutables tels que ffmpeg et SQLite à partir de zéro, sans accès à Internet. Cette étude vise à explorer les limites de la génération de code par l'IA. La recherche se concentre sur l'évaluation de l'autonomie et de l'exhaustivité des modèles d'IA dans la synthèse de logiciels complexes.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

L'auteur examine pourquoi une recette spécifique de quantification Qwen3.6 27B INT8 Autoround surpasse les autres, observant que le modèle "réfléchit" moins mais fournit de meilleurs résultats lors des benchmarks. Il a ensuite reproduit cette performance avec une nouvelle quantification GGUF, notant que les deux obtiennent constamment des réponses plus rapidement que l'UD Q8 K XL.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost

Um teste de benchmark agentic revela que o modelo GLM 5.1 alcança desempenho similar ao Opus por um terço do custo em tarefas agentic, superando outros modelos testados. O autor enfatiza a relevância de testes em ambientes reais como o OpenClaw, classificando o GLM 5.1 como um dos principais modelos para agentes atualmente.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6 GGUF Benchmarks

Ce contenu présente les benchmarks de performance KLD pour les quants GGUF Qwen3.6-35B-A3B d'Unsloth, soulignant leur efficacité par rapport à l'espace disque. Il clarifie également que les mises à jour fréquentes des GGUF sont généralement dues à des corrections de bugs externes ou à des améliorations officielles, et non à des erreurs internes d'Unsloth.

Qwen3.6 GGUF Benchmarks
41
RESEARCHarXiv CS.AI·il y a 1j

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.

40
ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 est recommandé comme un remplacement viable pour Opus 4.7, capable de gérer 85% des tâches avec une bonne qualité, incluant la vision et une excellente utilisation du navigateur, particulièrement pour les tâches à long terme. L'auteur suggère que cela montre que les LLM de pointe n'apportent pas toujours de nouvelles fonctionnalités révolutionnaires, et que les solutions locales pourraient être préférables en raison des limites d'utilisation.

36
RESEARCH↑ trendingReddit r/LocalLLaMA·20/04/2026

Kimi K2.6

Ce contenu annonce la soumission de benchmarks pour Kimi K2.6 par un utilisateur, avec des liens vers la soumission et les commentaires.

Kimi K2.6
36
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

L'auteur manifeste un vif intérêt à comprendre les GPU chinois modifiés, tels qu'une 4090 48GB, soulignant le manque d'informations dans le monde anglophone. Il recherche les expériences des utilisateurs concernant leurs performances, leur fiabilité, les particularités logicielles, les benchmarks et les prix, notamment pour les applications d'IA/LLM.

33
ARTICLEDEV.to AI·il y a 3j

<think>

Ce contenu détaille les exigences pour un article technique analysant les performances et la tarification des modèles d'IA, en se concentrant sur des métriques telles que TTFT et tokens/sec. Il spécifie l'inclusion de données précises sur les prix et les modèles, les régions de test et des exemples de code pour une API globale, s'adressant à un public d'ingénieurs backend.

30
RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

30
ARTICLEDEV.to AI·il y a 4j

<think>

Ce contenu est une ébauche de planification pour un article sur le test de modèles d'IA multimodale. L'auteur a l'intention de partager sa découverte personnelle, ses benchmarks et les données de prix de divers modèles.

29
RESEARCHarXiv CS.AI·04/05/2026

Agentic AI for Trip Planning Optimization Application

Cette recherche présente un cadre d'IA agéntique pour optimiser la planification de trajets pour les véhicules intelligents, dépassant la simple faisabilité pour considérer des facteurs dynamiques comme le trafic et l'énergie. Il utilise un agent d'orchestration coordonnant des agents spécialisés et propose un nouveau jeu de données pour une évaluation objective, atteignant une précision significative sur le TOP Benchmark.

29
RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

29