LLM performance

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·19/4/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Un estudio demuestra que adaptar el *scaffold* para un pequeño LLM local (Qwen3.5-9B) mejora significativamente su rendimiento en el *benchmark* de codificación Aider Polyglot, del 19.1% al 45.6%. Esto subraya la importancia del diseño del *scaffold* sobre la debilidad inherente del modelo para modelos locales en agentes de codificación.

scaffolding Benchmarking coding AI local models

RESEARCH↑ trendingReddit r/LocalLLaMA·11/4/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Este contenido describe una implementación nativa de DFlash en MLX para Apple Silicon, que acelera significativamente la generación de tokens en modelos Qwen. La técnica de decodificación especulativa logra mejoras de velocidad de hasta 3.3x, manteniendo la calidad de salida idéntica.

apple-silicon MLX Qwen LLM performance

ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.

llama.cpp AI optimization MoE LLM performance

ARTICLE↑ trendingReddit r/LocalLLaMA·27/4/2026

GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B

Este contenido detalla una optimización de la gramática GBNF para los modelos Qwen3.6 35B-A3B y 27B, lo que resulta en un rendimiento mejorado para la codificación y la resolución de rompecabezas. Las pruebas en una configuración RTX 5090 con llama.cpp mostraron una mejora significativa, especialmente para el modelo 35B-A3B.

GBNF AI optimization Benchmarking Qwen

GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B

ARTICLE↑ trendingReddit r/LocalLLaMA·9/4/2026

Could it be that this take is not too far fetched?

Este conteúdo aborda a preocupação da comunidade de IA com a degradação de modelos de ponta, como o Claude Opus, semanas após o lançamento, levantando hipóteses sobre economia de custos ou sobrecarga de infraestrutura. Também discute os desafios de estabelecer benchmarks consistentes, pois os provedores podem ajustar o acesso aos modelos para evitar detecção.

AI benchmarking Cost Optimization Cloud Compute AI Model Degradation

ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Opus 4.7 Max subscriber. Switching to Kimi 2.6

Un ex suscriptor de Opus 4.7 Max informa que el modelo se volvió perezoso y caro. Después de complementar con Qwen 3.6, el usuario cambió a Kimi 2.6, encontrándolo sorprendentemente rápido, agradable de usar y con una gestión de contexto aparentemente mejor a pesar de una ventana de contexto más pequeña.

AI models user experience LLM performance Cost Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Major drop in intelligence across most major models.

El autor informa una caída importante en la inteligencia de varios modelos de IA como ChatGPT, Claude, Gemini y Grok, a mediados de abril de 2026. Observó que los modelos ignoran instrucciones y producen resultados superficiales, planteando la hipótesis de una reducción de la cuantificación o una política deliberada, y sugiriendo el uso de GPUs alquiladas o IA local.

quantization Local AI model degradation AI intelligence drop

ARTICLEDEV.to AI·24/4/2026

An agent is only as good as the system engineering around it.

El postmortem de Anthropic sobre la caída de calidad de Claude Code reveló que el problema provino de la orquestación, no del modelo base, destacando el papel crítico de la ingeniería de sistemas. La calidad del agente de IA se define en tres niveles (Modelo, Contexto y Harness), concluyendo que el rendimiento general se determina principalmente por la ingeniería del sistema alrededor del modelo.

orchestration System Engineering LLM performance AI agents

ARTICLEDEV.to AI·19/4/2026

An Hour Down Claude Code's Memory Hole

Claude Code introdujo una función de auto-memoria predeterminada que consumía el 47% del prompt del sistema y degradaba el rendimiento del modelo. El autor detalla cómo descubrió y deshabilitó esta función mediante una variable de entorno, restaurando el comportamiento esperado de la IA.

user experience AI tools AI debugging System prompt optimization

RESEARCHarXiv CS.CL·7/4/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation