← heapsort-ai

LLM performance

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/19/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Eine Studie zeigt, dass die Anpassung des Scaffolds für ein kleines lokales LLM (Qwen3.5-9B) dessen Leistung im Aider Polyglot Coding-Benchmark von 19,1% auf 45,6% erheblich verbessert. Dies unterstreicht die Bedeutung des Scaffold-Designs gegenüber der inhärenten Modellsschwäche für lokale Modelle in Coding-Agenten.

47
ARTICLE↑ trendingReddit r/LocalLLaMA·4/9/2026

Could it be that this take is not too far fetched?

Este conteúdo aborda a preocupação da comunidade de IA com a degradação de modelos de ponta, como o Claude Opus, semanas após o lançamento, levantando hipóteses sobre economia de custos ou sobrecarga de infraestrutura. Também discute os desafios de estabelecer benchmarks consistentes, pois os provedores podem ajustar o acesso aos modelos para evitar detecção.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Major drop in intelligence across most major models.

Der Autor berichtet über einen erheblichen Intelligenzrückgang bei großen KI-Modellen (wie ChatGPT, Claude, Gemini und Grok) seit Mitte April 2026, wobei er beobachtete, dass Anweisungen ignoriert und oberflächliche Antworten gegeben wurden. Dies wird als mögliche Folge von Quantisierungsreduzierung oder einer bewussten Strategie vermutet, und er schlägt die Nutzung gemieteter GPUs oder lokaler KI vor.

35
ARTICLEDEV.to AI·4/24/2026

An agent is only as good as the system engineering around it.

Anthropic's Postmortem zum Qualitätsverlust von Claude Code zeigte, dass das Problem von der Orchestrierung und nicht vom Basismodell herrührte, was die kritische Rolle des System Engineerings unterstreicht. Die Qualität von KI-Agenten wird auf drei Ebenen (Modell, Kontext und Harness) definiert, wobei die Gesamtleistung hauptsächlich durch die Systemgestaltung um das Modell herum bestimmt wird.

30
RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27