← heapsort-ai

LLM performance

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·19/4/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Un estudio demuestra que adaptar el *scaffold* para un pequeño LLM local (Qwen3.5-9B) mejora significativamente su rendimiento en el *benchmark* de codificación Aider Polyglot, del 19.1% al 45.6%. Esto subraya la importancia del diseño del *scaffold* sobre la debilidad inherente del modelo para modelos locales en agentes de codificación.

47
ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·9/4/2026

Could it be that this take is not too far fetched?

Este conteúdo aborda a preocupação da comunidade de IA com a degradação de modelos de ponta, como o Claude Opus, semanas após o lançamento, levantando hipóteses sobre economia de custos ou sobrecarga de infraestrutura. Também discute os desafios de estabelecer benchmarks consistentes, pois os provedores podem ajustar o acesso aos modelos para evitar detecção.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Major drop in intelligence across most major models.

El autor informa una caída importante en la inteligencia de varios modelos de IA como ChatGPT, Claude, Gemini y Grok, a mediados de abril de 2026. Observó que los modelos ignoran instrucciones y producen resultados superficiales, planteando la hipótesis de una reducción de la cuantificación o una política deliberada, y sugiriendo el uso de GPUs alquiladas o IA local.

35
ARTICLEDEV.to AI·24/4/2026

An agent is only as good as the system engineering around it.

El postmortem de Anthropic sobre la caída de calidad de Claude Code reveló que el problema provino de la orquestación, no del modelo base, destacando el papel crítico de la ingeniería de sistemas. La calidad del agente de IA se define en tres niveles (Modelo, Contexto y Harness), concluyendo que el rendimiento general se determina principalmente por la ingeniería del sistema alrededor del modelo.

30
RESEARCHarXiv CS.CL·7/4/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27