benchmark

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·16/04/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Le contenu détaille les performances du modèle Qwen 3.6 35B A3B, atteignant 187 tokens par seconde sur un GPU RTX 5090 32GB. Il met en évidence la prise en charge d'une taille de contexte de 120K, utilisant une quantification Q5 K S et une température de 0.1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Des tests de décodage spéculatif utilisant Gemma 4 E2B comme brouillon pour Gemma 4 31B ont révélé une amélioration notable des performances. La vitesse moyenne a augmenté de 29%, atteignant 50% pour la génération de code, avec des configurations matérielles et logicielles spécifiques.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/LocalLLaMA·01/05/2026

Qwen 3.6 27B vs Gemma 4 31B - making Packman game!

Un concours local de développement de jeux LLM a comparé Qwen 3.6 27B et Gemma 4 31B pour la création d'un jeu Pac-Man. Gemma 4 31B a été le vainqueur incontestable, produisant une logique de jeu plus robuste et une meilleure qualité en beaucoup moins de temps, bien que Qwen ait généré plus de tokens.

code generation model comparison benchmark LLM

Qwen 3.6 27B vs Gemma 4 31B - making Packman game!

RESEARCH↑ trendingReddit r/LocalLLaMA·14/04/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Une étude a comparé TranslateGemma-12b à cinq LLM de pointe pour la traduction de sous-titres dans six paires de langues, montrant que le modèle spécifique à la tâche a constamment surpassé les modèles généralistes. Bien que les chiffres initiaux aient indiqué une victoire nette, l'assurance qualité humaine a ajouté une nuance importante qui sera détaillée dans le rapport complet.

Translation Gemma benchmark AI

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHDEV.to AI·17/04/2026

A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability

Ce contenu propose une évaluation complète de la capacité de ChatGPT à convertir du texte en SQL en mode zero-shot, c'est-à-dire sans exemples préalables. Il explore les performances et les limites du modèle dans cette tâche complexe.

evaluation Text-to-SQL ChatGPT benchmark

RESEARCHarXiv CS.CL·17/04/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround est un nouveau benchmark rigoureux pour la mémoire à long terme des LLM, conçu pour surmonter les limitations des évaluations statiques grâce à des scénarios interactifs gamifiés. Il propose un cadre hiérarchique à trois niveaux pour évaluer différents types de mémoire et une suite de métriques multidimensionnelles pour une quantification complète.

evaluation gamification memory benchmark

RESEARCHarXiv CS.CL·21/04/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS introduit le premier benchmark chinois de détection de sarcasme multimodal et à grain fin, composé de 2 796 paires image-texte avec des annotations à triple niveau. Cet ensemble de données vise à améliorer la compréhension sémantique fine et le raisonnement métaphorique des modèles d'IA, répondant aux limitations des benchmarks existants.

Dataset multimodal AI natural language processing benchmark

RESEARCHarXiv CS.CL·06/04/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

evaluation diagnostic framework RAG benchmark

RESEARCHarXiv CS.AI·06/04/2026

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic data Agentes de Saúde IA na Saúde Healthcare