LLM performance

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/19/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Eine Studie zeigt, dass die Anpassung des Scaffolds für ein kleines lokales LLM (Qwen3.5-9B) dessen Leistung im Aider Polyglot Coding-Benchmark von 19,1% auf 45,6% erheblich verbessert. Dies unterstreicht die Bedeutung des Scaffold-Designs gegenüber der inhärenten Modellsschwäche für lokale Modelle in Coding-Agenten.

scaffolding Benchmarking coding AI local models

RESEARCH↑ trendingReddit r/LocalLLaMA·4/11/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.

apple-silicon MLX Qwen LLM performance

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Die Optimierung von Qwen3.6-35B-A3B auf Consumer-Hardware (RTX 5070 Ti, Ryzen 9800X3D) erreicht 79 t/s mit 128K Kontext. Der Schlüssel ist die korrekte Verwendung von `--n-cpu-moe N` in llama.cpp, was `--cpu-moe` übertrifft, indem es mehr GPU-VRAM für MoE-Experten nutzt.

llama.cpp AI optimization MoE LLM performance

ARTICLE↑ trendingReddit r/LocalLLaMA·4/27/2026

GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B

Dieser Inhalt beschreibt eine Optimierung der GBNF-Grammatik für die Qwen3.6 35B-A3B und 27B Modelle, was zu einer verbesserten Leistung beim Codieren und Lösen von Rätseln führt. Benchmarks auf einem RTX 5090-Setup mit llama.cpp zeigten eine signifikante Steigerung, insbesondere für das 35B-A3B-Modell.

GBNF AI optimization Benchmarking Qwen

GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B

ARTICLE↑ trendingReddit r/LocalLLaMA·4/9/2026

Could it be that this take is not too far fetched?

Este conteúdo aborda a preocupação da comunidade de IA com a degradação de modelos de ponta, como o Claude Opus, semanas após o lançamento, levantando hipóteses sobre economia de custos ou sobrecarga de infraestrutura. Também discute os desafios de estabelecer benchmarks consistentes, pois os provedores podem ajustar o acesso aos modelos para evitar detecção.

AI benchmarking Cost Optimization Cloud Compute AI Model Degradation

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Opus 4.7 Max subscriber. Switching to Kimi 2.6

Ein ehemaliger Opus 4.7 Max Abonnent berichtet, dass das Modell faul und teuer wurde. Nach der Ergänzung mit Qwen 3.6 wechselte der Benutzer zu Kimi 2.6 und empfand es als überraschend schnell, angenehm zu bedienen und mit scheinbar besserem Kontextmanagement, obwohl der Kontext kleiner ist.

AI models user experience LLM performance Cost Efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Major drop in intelligence across most major models.

Der Autor berichtet über einen erheblichen Intelligenzrückgang bei großen KI-Modellen (wie ChatGPT, Claude, Gemini und Grok) seit Mitte April 2026, wobei er beobachtete, dass Anweisungen ignoriert und oberflächliche Antworten gegeben wurden. Dies wird als mögliche Folge von Quantisierungsreduzierung oder einer bewussten Strategie vermutet, und er schlägt die Nutzung gemieteter GPUs oder lokaler KI vor.

quantization Local AI model degradation AI intelligence drop

ARTICLEDEV.to AI·4/24/2026

An agent is only as good as the system engineering around it.

Anthropic's Postmortem zum Qualitätsverlust von Claude Code zeigte, dass das Problem von der Orchestrierung und nicht vom Basismodell herrührte, was die kritische Rolle des System Engineerings unterstreicht. Die Qualität von KI-Agenten wird auf drei Ebenen (Modell, Kontext und Harness) definiert, wobei die Gesamtleistung hauptsächlich durch die Systemgestaltung um das Modell herum bestimmt wird.

orchestration System Engineering LLM performance AI agents

ARTICLEDEV.to AI·4/19/2026

An Hour Down Claude Code's Memory Hole

Claude Code führte eine standardmäßige Auto-Memory-Funktion ein, die 47 % des System-Prompts verbrauchte und die Leistung des Modells verschlechterte. Der Autor beschreibt, wie er diese Funktion über eine Umgebungsvariable entdeckte und deaktivierte, um das erwartete Verhalten der KI wiederherzustellen.

user experience AI tools AI debugging System prompt optimization

RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation