← heapsort-ai

LLM optimization

17 items

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

43
ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialisierung) ist eine Middleware-Schicht, die den Standard-HuggingFace-KV-Cache durch ein gestuftes Abrufsystem ersetzt und alte Daten in den System-RAM verschiebt. Dies ermöglicht 1M Token-Kontextfenster auf einer RTX 4070 (12 GB VRAM) mit nur 12 MB VRAM-Overhead und guter Leistung.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·5/6/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Dieser Beitrag berichtet über die Ergebnisse der 35B A3B-Version der Qwen3.6-35B-A3B UD XL-Modelle mit MTP-Pfropfen, die jetzt auf HuggingFace verfügbar sind. Erste Tests zeigten begrenzte Geschwindigkeitsgewinne (6% für Q4, 2,5% für Q8) bei einigen Setups, obwohl andere Benutzer je nach Hardware deutlichere Verbesserungen (bis zu 50%) meldeten.

41
RESEARCHarXiv CS.CL·4/17/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Diese Arbeit stellt ein vereinheitlichtes, auf Compressed Sensing basierendes Framework für die dynamische Ausführung von LLMs vor, das die massiven Parameterzahlen, den Speicherverbrauch und die DekodierungsLatenz großer Sprachmodelle adressiert. Es integriert Modell- und Prompt-Kompression, indem es zufällige Messoperatoren und Sparse Recovery nutzt, um aufgabenkonditionierte und token-adaptive Support-Sets zu schätzen.

31
RESEARCHarXiv CS.LG·4/23/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Diese Arbeit bewertet spekulatives Decoding mit EAGLE3 zur Optimierung des PayPal Commerce Agenten, der auf feinabgestimmten Nemotron-Modellen basiert. Die Studie zeigt signifikante Leistungsverbesserungen, darunter eine Steigerung des Durchsatzes um 22-49% und eine Latenzreduktion um 18-33% ohne zusätzliche Hardwarekosten.

28
ARTICLEDEV.to AI·4/16/2026

"The Hidden Cost of AI Compute: Why Token Efficiency is Your Competitive Advanta

Der Artikel beleuchtet die erheblichen, oft übersehenen finanziellen Kosten von KI-Rechenleistung, insbesondere bei großen Sprachmodellen wie GPT-4 aufgrund des Token-Verbrauchs. Es wird argumentiert, dass die meisten Implementierungen durch ineffizientes Prompting und Systemdesign verschwenderisch sind, was zu unnötigen Ausgaben führen kann, die 3-5x höher sind als erforderlich.

28
RESEARCHDEV.to AI·vor 20T

How Far Can a Small Coding Model Go With a Better Harness?

Der Artikel untersucht die Leistung eines kleinen Codierungsmodells (GPT-5.1-Codex-Mini) auf Terminal-Bench 2.0, das durch Optimierung seines „Harness“ statt durch Verwendung eines größeren Modells 61,6 % erreicht. Dies unterstreicht die entscheidende Rolle des Modell-Wrappers für die Leistung, insbesondere bei kleineren Modellen, wo Harness-Fehler stärker ins Gewicht fallen.

27
RESEARCHDEV.to AI·vor 22T

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Dieser Inhalt beschreibt ein dreimonatiges Experiment zur Optimierung der Dekodierungsleistung des Qwen3.6-27B-Modells auf einer RTX 3090 Ti GPU. Das Projekt verbesserte erfolgreich die Dekodierungsgeschwindigkeit von 43 auf 39-49 Token pro Sekunde unter Verwendung einer neuen spekulativen Dekodierungstechnik (MTP) in llama.cpp.

27
RESEARCHDEV.to AI·5/9/2026

Adaptive reasoning reduces token usage up to 90% with minimal accuracy loss

Adaptive Reasoning-Formate ermöglichen es KI-Modellen, bei Bedarf zu entscheiden, welche Denkprozesse wirklich notwendig sind, wodurch der Token-Verbrauch um bis zu 90% reduziert wird, bei minimalem Genauigkeitsverlust. Dieser Ansatz ersetzt monolithische Berechnungsketten durch dynamisch ausgewählte, leichte Alternativen und überwindet die Kosteneffizienz des parallelen Reasoning.

27
ARTICLEDEV.to AI·4/14/2026

I Open-Sourced the Most Overkill Claude Code Setup — 15 Agents, 17 Hooks, 60-99% Token Savings

Der Autor hat ein fortschrittliches System namens „claude-god-mode“ quelloffen gemacht, um die Nutzung von Claude Code zu optimieren und Probleme mit hohem Token-Verbrauch sowie schlechter Code-Qualität zu beheben. Dieses System kombiniert mehrere Optimierungsebenen und 15 spezialisierte Agenten, was zu 60-99 % Token-Einsparungen und einer verbesserten Qualität des generierten Codes führt.

27
ARTICLEDEV.to AI·4/24/2026

i burnt $127 in api credits before i fixed these openclaw mistakes

Der Autor berichtet, wie er 127 US-Dollar an API-Credits verbrannte, weil ein KI-Agent (OpenClaw) ineffizient in Schleifen lief und teure Modelle für einfache Aufgaben nutzte. Er behob dies, indem er gestufte Modellkonfigurationen implementierte und passende KI-Modelle für spezifische Aufgabentypen zuwies, um die Leistung zu optimieren und Kosten zu senken.

26
ARTICLEDEV.to AI·4/10/2026

Most of your Claude Code agents don't need Sonnet

O artigo apresenta uma estratégia de roteamento de 3 níveis para otimizar o custo de chamadas de agentes Claude Code, direcionando tarefas para o modelo de IA mais barato e adequado. O autor utiliza modelos caros como Sonnet apenas para tarefas que exigem raciocínio profundo, enquanto tarefas mais simples são atribuídas a modelos mais acessíveis como Haiku e Ollama.

25