benchmark

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·16/4/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

El contenido detalla el rendimiento del modelo Qwen 3.6 35B A3B, alcanzando 187 tokens por segundo en una GPU RTX 5090 de 32GB. Destaca el soporte para un tamaño de contexto de 120K, utilizando cuantificación Q5 K S y una temperatura de 0.1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Las pruebas de decodificación especulativa utilizando Gemma 4 E2B como borrador para Gemma 4 31B mostraron una notable mejora en el rendimiento. La velocidad promedio aumentó un 29%, llegando al 50% en la generación de código, con configuraciones específicas de hardware y software.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/LocalLLaMA·1/5/2026

Qwen 3.6 27B vs Gemma 4 31B - making Packman game!

Un concurso local de desarrollo de juegos con LLMs comparó Qwen 3.6 27B y Gemma 4 31B en la creación de un juego Pac-Man. Gemma 4 31B fue el claro ganador, produciendo una lógica de juego más fuerte y una mayor calidad en mucho menos tiempo, a pesar de que Qwen generó más tokens.

code generation model comparison benchmark LLM

Qwen 3.6 27B vs Gemma 4 31B - making Packman game!

RESEARCH↑ trendingReddit r/LocalLLaMA·14/4/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Un estudio comparó TranslateGemma-12b con cinco LLM de frontera en la traducción de subtítulos para seis pares de idiomas, revelando que el modelo específico para la tarea superó consistentemente a los modelos de propósito general. Aunque los números iniciales mostraron una victoria clara, el control de calidad humano añadió una salvedad importante que se detallará en el informe completo.

Translation Gemma benchmark AI

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

RESEARCHarXiv CS.CL·10/4/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHDEV.to AI·17/4/2026

A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability

Este contenido ofrece una evaluación exhaustiva de la capacidad de ChatGPT para convertir texto a SQL en modo zero-shot, es decir, sin ejemplos previos. Explora el rendimiento y las limitaciones del modelo en esta compleja tarea.

evaluation Text-to-SQL ChatGPT benchmark

RESEARCHarXiv CS.CL·17/4/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround es un nuevo y riguroso benchmark para la memoria a largo plazo de los LLM, diseñado para superar las limitaciones de las evaluaciones estáticas mediante escenarios interactivos gamificados. Presenta un marco jerárquico de tres niveles para evaluar diferentes tipos de memoria y un conjunto de métricas multidimensionales para una cuantificación exhaustiva.

evaluation gamification memory benchmark

RESEARCHarXiv CS.CL·21/4/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS presenta el primer benchmark chino de detección de sarcasmo multimodal y de grano fino, que comprende 2.796 pares de imagen-texto con anotaciones de triple nivel. Este conjunto de datos busca mejorar la comprensión semántica fina y el razonamiento metafórico en los modelos de IA, abordando las limitaciones de los benchmarks existentes.

Dataset multimodal AI natural language processing benchmark

RESEARCHarXiv CS.CL·6/4/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

evaluation diagnostic framework RAG benchmark

RESEARCHarXiv CS.AI·6/4/2026

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic data Agentes de Saúde IA na Saúde Healthcare