← heapsort-ai

LLM performance

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·19/04/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Une étude montre qu'adapter l'échafaudage pour un petit LLM local (Qwen3.5-9B) améliore significativement ses performances sur le benchmark de codage Aider Polyglot, passant de 19,1% à 45,6%. Cela souligne l'importance de la conception de l'échafaudage par rapport à la faiblesse intrinsèque du modèle pour les modèles locaux dans les agents de codage.

47
ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·09/04/2026

Could it be that this take is not too far fetched?

Este conteúdo aborda a preocupação da comunidade de IA com a degradação de modelos de ponta, como o Claude Opus, semanas após o lançamento, levantando hipóteses sobre economia de custos ou sobrecarga de infraestrutura. Também discute os desafios de estabelecer benchmarks consistentes, pois os provedores podem ajustar o acesso aos modelos para evitar detecção.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Major drop in intelligence across most major models.

L'auteur signale une baisse majeure de l'intelligence de plusieurs modèles d'IA comme ChatGPT, Claude, Gemini et Grok, à partir de mi-avril 2026. Il a observé que les modèles ignoraient les instructions et donnaient des résultats superficiels, émettant l'hypothèse d'une réduction de la quantification ou d'une politique délibérée, et suggérant l'utilisation de GPUs louées ou d'IA locale.

35
ARTICLEDEV.to AI·24/04/2026

An agent is only as good as the system engineering around it.

Le postmortem d'Anthropic sur la baisse de qualité de Claude Code a révélé que le problème venait de l'orchestration, et non du modèle de base, soulignant le rôle critique de l'ingénierie des systèmes. La qualité des agents IA est définie par trois couches (Modèle, Contexte et Harnais), concluant que la performance globale est principalement déterminée par l'ingénierie du système autour du modèle.

30
RESEARCHarXiv CS.CL·07/04/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27