LLM performance

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·19/04/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Une étude montre qu'adapter l'échafaudage pour un petit LLM local (Qwen3.5-9B) améliore significativement ses performances sur le benchmark de codage Aider Polyglot, passant de 19,1% à 45,6%. Cela souligne l'importance de la conception de l'échafaudage par rapport à la faiblesse intrinsèque du modèle pour les modèles locaux dans les agents de codage.

scaffolding Benchmarking coding AI local models

RESEARCH↑ trendingReddit r/LocalLLaMA·11/04/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.

apple-silicon MLX Qwen LLM performance

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.

llama.cpp AI optimization MoE LLM performance

ARTICLE↑ trendingReddit r/LocalLLaMA·27/04/2026

GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B

Ce contenu détaille une optimisation de la grammaire GBNF pour les modèles Qwen3.6 35B-A3B et 27B, améliorant leurs performances pour le codage et la résolution d'énigmes. Des tests sur une configuration RTX 5090 avec llama.cpp ont montré une amélioration notable, en particulier pour le modèle 35B-A3B.

GBNF AI optimization Benchmarking Qwen

GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B

ARTICLE↑ trendingReddit r/LocalLLaMA·09/04/2026

Could it be that this take is not too far fetched?

Este conteúdo aborda a preocupação da comunidade de IA com a degradação de modelos de ponta, como o Claude Opus, semanas após o lançamento, levantando hipóteses sobre economia de custos ou sobrecarga de infraestrutura. Também discute os desafios de estabelecer benchmarks consistentes, pois os provedores podem ajustar o acesso aos modelos para evitar detecção.

AI benchmarking Cost Optimization Cloud Compute AI Model Degradation

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Opus 4.7 Max subscriber. Switching to Kimi 2.6

Un ancien abonné d'Opus 4.7 Max signale que le modèle est devenu paresseux et coûteux. Après avoir utilisé Qwen 3.6 en complément, l'utilisateur a basculé vers Kimi 2.6, le trouvant étonnamment rapide, agréable à utiliser et avec une gestion du contexte apparemment meilleure malgré une fenêtre de contexte plus petite.

AI models user experience LLM performance Cost Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Major drop in intelligence across most major models.

L'auteur signale une baisse majeure de l'intelligence de plusieurs modèles d'IA comme ChatGPT, Claude, Gemini et Grok, à partir de mi-avril 2026. Il a observé que les modèles ignoraient les instructions et donnaient des résultats superficiels, émettant l'hypothèse d'une réduction de la quantification ou d'une politique délibérée, et suggérant l'utilisation de GPUs louées ou d'IA locale.

quantization Local AI model degradation AI intelligence drop

ARTICLEDEV.to AI·24/04/2026

An agent is only as good as the system engineering around it.

Le postmortem d'Anthropic sur la baisse de qualité de Claude Code a révélé que le problème venait de l'orchestration, et non du modèle de base, soulignant le rôle critique de l'ingénierie des systèmes. La qualité des agents IA est définie par trois couches (Modèle, Contexte et Harnais), concluant que la performance globale est principalement déterminée par l'ingénierie du système autour du modèle.

orchestration System Engineering LLM performance AI agents

ARTICLEDEV.to AI·19/04/2026

An Hour Down Claude Code's Memory Hole

Claude Code a introduit une fonction de mémoire automatique par défaut qui consommait 47 % du prompt système et dégradait les performances du modèle. L'auteur explique comment il a découvert et désactivé cette fonction via une variable d'environnement, rétablissant le comportement attendu de l'IA.

user experience AI tools AI debugging System prompt optimization

RESEARCHarXiv CS.CL·07/04/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation