← heapsort-ai

Benchmarks

67 items

RESEARCH↑ trendingReddit r/MachineLearning·7/5/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

El Meta Superintelligence Lab presenta ProgramBench, una iniciativa que prueba la capacidad de las IAs avanzadas para recrear programas ejecutables como ffmpeg y SQLite desde cero, sin acceso a internet. Este estudio busca explorar los límites de la generación de código por IA. La investigación se centra en evaluar la autonomía y la completitud de los modelos de IA en la síntesis de software complejo.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

El autor investiga por qué una receta específica de cuantificación Qwen3.6 27B INT8 Autoround supera a otras, observando que el modelo "piensa" menos pero proporciona mejores resultados en los benchmarks. Luego replicó este rendimiento con una nueva cuantificación GGUF, señalando que ambas consistentemente obtienen respuestas más rápido que UD Q8 K XL.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost

Um teste de benchmark agentic revela que o modelo GLM 5.1 alcança desempenho similar ao Opus por um terço do custo em tarefas agentic, superando outros modelos testados. O autor enfatiza a relevância de testes em ambientes reais como o OpenClaw, classificando o GLM 5.1 como um dos principais modelos para agentes atualmente.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6 GGUF Benchmarks

Este contenido presenta los benchmarks de rendimiento KLD para los quants GGUF de Qwen3.6-35B-A3B de Unsloth, destacando su eficiencia en relación al espacio en disco. También aclara que las frecuentes actualizaciones de GGUF suelen deberse a correcciones de errores externos o mejoras oficiales, y no a errores internos de Unsloth.

Qwen3.6 GGUF Benchmarks
41
RESEARCHarXiv CS.AI·hace 1d

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.

40
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 es recomendado como un reemplazo viable para Opus 4.7, capaz de realizar el 85% de las tareas con buena calidad, con visión y excelente uso del navegador, siendo efectivo para tareas a largo plazo. El autor sugiere que esto demuestra que los LLM de frontera no siempre ofrecen innovaciones, y las soluciones locales podrían ser preferibles debido a los límites de uso.

36
RESEARCH↑ trendingReddit r/LocalLLaMA·20/4/2026

Kimi K2.6

Este contenido anuncia la presentación de benchmarks para Kimi K2.6 por un usuario, proporcionando enlaces a la presentación y comentarios.

Kimi K2.6
36
ARTICLEDEV.to AI·hace 3d

<think>

Este contenido describe los requisitos para un artículo técnico sobre el análisis del rendimiento y la fijación de precios de modelos de IA, centrándose en métricas como TTFT y tokens/segundo. Especifica la inclusión de datos exactos de precios y modelos, regiones de prueba y ejemplos de código para una API global, dirigido a una audiencia de ingenieros de backend.

30
RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

30
ARTICLEDEV.to AI·hace 4d

<think>

Este contenido es un borrador de planificación para un artículo sobre la prueba de modelos de IA multimodal. El autor planea compartir su descubrimiento personal, benchmarking y datos de precios de varios modelos.

29
RESEARCHarXiv CS.AI·4/5/2026

Agentic AI for Trip Planning Optimization Application

Esta investigación introduce un marco de IA agéntica para optimizar la planificación de viajes en vehículos inteligentes, superando la mera viabilidad para considerar factores dinámicos como el tráfico y la energía. Emplea un agente de orquestación que coordina agentes especializados y proporciona un nuevo conjunto de datos para evaluación objetiva, logrando una precisión significativa en el TOP Benchmark.

29
RESEARCHarXiv CS.CL·24/4/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

Se presenta AITP, un modelo de lenguaje grande multimodal para la asignación de responsabilidad en accidentes de tráfico, que mejora el razonamiento mediante Multimodal Chain-of-Thought e integra conocimiento legal a través de RAG. La investigación también introduce DecaTARA, un completo benchmark estilo decatlón con 67.941 videos anotados y 195.821 pares de preguntas y respuestas.

29
ARTICLEDEV.to AI·14/4/2026

Opus 4.6 Hallucination Rate Hit 33% — Here's What Changed and How to Fix It

Los desarrolladores han informado de un notable descenso en la calidad de codificación de Claude Opus 4.6, con puntos de referencia independientes confirmando que su tasa de alucinación casi se duplicó al 33%. El artículo cubre la evidencia, la causa raíz y las configuraciones para solucionar el problema de fabricación de información del modelo.

29