LLM optimization

17 items

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialisierung) ist eine Middleware-Schicht, die den Standard-HuggingFace-KV-Cache durch ein gestuftes Abrufsystem ersetzt und alte Daten in den System-RAM verschiebt. Dies ermöglicht 1M Token-Kontextfenster auf einer RTX 4070 (12 GB VRAM) mit nur 12 MB VRAM-Overhead und guter Leistung.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

Dieser Inhalt analysiert die Beziehung zwischen der CPU-Thread-Pool-Größe in LM Studio und der Token-Generierungsgeschwindigkeit (tk/s). Er konzentriert sich dabei speziell auf Szenarien, in denen einige Mixture of Experts (MoE)-Schichten auf die CPU ausgelagert werden, um die Leistung zu optimieren.

LLM optimization CPU performance MoE LM Studio

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 19T

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Der Autor erreichte 110 tok/s mit 12GB VRAM unter Verwendung von ik_llama.cpp auf dem Qwen3.6 35B A3B Modell und verzeichnete einen erheblichen Geschwindigkeitszuwachs. Diese Leistung übertraf die von regulärem llama.cpp nach dem MTP PR Merge.

GPU VRAM LLM optimization llama.cpp Benchmarking

ARTICLE↑ trendingReddit r/LocalLLaMA·5/6/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Dieser Beitrag berichtet über die Ergebnisse der 35B A3B-Version der Qwen3.6-35B-A3B UD XL-Modelle mit MTP-Pfropfen, die jetzt auf HuggingFace verfügbar sind. Erste Tests zeigten begrenzte Geschwindigkeitsgewinne (6% für Q4, 2,5% für Q8) bei einigen Setups, obwohl andere Benutzer je nach Hardware deutlichere Verbesserungen (bis zu 50%) meldeten.

AI models LLM optimization GGUF performance testing

RESEARCHarXiv CS.CL·4/17/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Diese Arbeit stellt ein vereinheitlichtes, auf Compressed Sensing basierendes Framework für die dynamische Ausführung von LLMs vor, das die massiven Parameterzahlen, den Speicherverbrauch und die DekodierungsLatenz großer Sprachmodelle adressiert. Es integriert Modell- und Prompt-Kompression, indem es zufällige Messoperatoren und Sparse Recovery nutzt, um aufgabenkonditionierte und token-adaptive Support-Sets zu schätzen.

Model Compression LLM optimization sparse recovery compressed sensing

ARTICLEDEV.to AI·vor 23T

How I Cut My LangGraph Agent's Token Costs by 93% with One Import

Dieser Artikel beschreibt, wie die Token-Kosten von LangGraph-Agenten um 93% gesenkt werden können, indem deren zustandslose Natur adressiert wird. Der Autor stellte fest, dass über 90% der Graphtraversierung bei wiederholten Läufen identisch waren, was zu redundant bezahlter Arbeit führte.

LangGraph LLM optimization token costs Cost Efficiency

ARTICLEDEV.to AI·vor 19T

Stop Routing Your Prompts Through Shady AI Proxies: How to Compress LLM Tokens Locally in Node.js

Dieser Artikel warnt vor der Nutzung von Drittanbieter-KI-Proxys zur Kostenoptimierung, da diese ernsthafte Sicherheitsrisiken für proprietäre und Kundendaten darstellen. Er schlägt eine lokale Lösung zur LLM-Token-Kompression in einer Node.js-Laufzeitumgebung vor, die unbestätigte Zwischenhändler überflüssig macht.

LLM optimization data privacy security Node.js

RESEARCHarXiv CS.LG·4/23/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Diese Arbeit bewertet spekulatives Decoding mit EAGLE3 zur Optimierung des PayPal Commerce Agenten, der auf feinabgestimmten Nemotron-Modellen basiert. Die Studie zeigt signifikante Leistungsverbesserungen, darunter eine Steigerung des Durchsatzes um 22-49% und eine Latenzreduktion um 18-33% ohne zusätzliche Hardwarekosten.

Performance benchmarking LLM optimization Inference acceleration large language models

ARTICLEDEV.to AI·4/16/2026

"The Hidden Cost of AI Compute: Why Token Efficiency is Your Competitive Advanta

Der Artikel beleuchtet die erheblichen, oft übersehenen finanziellen Kosten von KI-Rechenleistung, insbesondere bei großen Sprachmodellen wie GPT-4 aufgrund des Token-Verbrauchs. Es wird argumentiert, dass die meisten Implementierungen durch ineffizientes Prompting und Systemdesign verschwenderisch sind, was zu unnötigen Ausgaben führen kann, die 3-5x höher sind als erforderlich.

AI costs prompt-engineering LLM optimization cloud computing

RESEARCHDEV.to AI·vor 20T

How Far Can a Small Coding Model Go With a Better Harness?

Der Artikel untersucht die Leistung eines kleinen Codierungsmodells (GPT-5.1-Codex-Mini) auf Terminal-Bench 2.0, das durch Optimierung seines „Harness“ statt durch Verwendung eines größeren Modells 61,6 % erreicht. Dies unterstreicht die entscheidende Rolle des Modell-Wrappers für die Leistung, insbesondere bei kleineren Modellen, wo Harness-Fehler stärker ins Gewicht fallen.

model performance LLM optimization Benchmarking code generation

RESEARCHDEV.to AI·vor 22T

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Dieser Inhalt beschreibt ein dreimonatiges Experiment zur Optimierung der Dekodierungsleistung des Qwen3.6-27B-Modells auf einer RTX 3090 Ti GPU. Das Projekt verbesserte erfolgreich die Dekodierungsgeschwindigkeit von 43 auf 39-49 Token pro Sekunde unter Verwendung einer neuen spekulativen Dekodierungstechnik (MTP) in llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHDEV.to AI·5/9/2026

Adaptive reasoning reduces token usage up to 90% with minimal accuracy loss

Adaptive Reasoning-Formate ermöglichen es KI-Modellen, bei Bedarf zu entscheiden, welche Denkprozesse wirklich notwendig sind, wodurch der Token-Verbrauch um bis zu 90% reduziert wird, bei minimalem Genauigkeitsverlust. Dieser Ansatz ersetzt monolithische Berechnungsketten durch dynamisch ausgewählte, leichte Alternativen und überwindet die Kosteneffizienz des parallelen Reasoning.

Visual-language systems LLM optimization Token reduction AI Efficiency

ARTICLEDEV.to AI·4/14/2026

I Open-Sourced the Most Overkill Claude Code Setup — 15 Agents, 17 Hooks, 60-99% Token Savings

Der Autor hat ein fortschrittliches System namens „claude-god-mode“ quelloffen gemacht, um die Nutzung von Claude Code zu optimieren und Probleme mit hohem Token-Verbrauch sowie schlechter Code-Qualität zu beheben. Dieses System kombiniert mehrere Optimierungsebenen und 15 spezialisierte Agenten, was zu 60-99 % Token-Einsparungen und einer verbesserten Qualität des generierten Codes führt.

Open Source LLM optimization Claude code generation

ARTICLEDEV.to AI·4/24/2026

i burnt $127 in api credits before i fixed these openclaw mistakes

Der Autor berichtet, wie er 127 US-Dollar an API-Credits verbrannte, weil ein KI-Agent (OpenClaw) ineffizient in Schleifen lief und teure Modelle für einfache Aufgaben nutzte. Er behob dies, indem er gestufte Modellkonfigurationen implementierte und passende KI-Modelle für spezifische Aufgabentypen zuwies, um die Leistung zu optimieren und Kosten zu senken.

LLM optimization Cost Optimization AI development AI agents

ARTICLEDEV.to AI·4/10/2026

Most of your Claude Code agents don't need Sonnet

O artigo apresenta uma estratégia de roteamento de 3 níveis para otimizar o custo de chamadas de agentes Claude Code, direcionando tarefas para o modelo de IA mais barato e adequado. O autor utiliza modelos caros como Sonnet apenas para tarefas que exigem raciocínio profundo, enquanto tarefas mais simples são atribuídas a modelos mais acessíveis como Haiku e Ollama.

cost management model routing LLM optimization Claude

NEWSDEV.to AI·4/13/2026

Prompt Quality Score (PQS) Now Supports x402 Payments on Solana

Prompt Quality Score (PQS), ein Pre-Flight-Qualitäts-Gate für KI-Agenten-Workflows, akzeptiert jetzt x402-Zahlungen auf Base-Mainnet und Solana. PQS bewertet Prompts über 8 Dimensionen hinweg, bietet einen Score sowie Korrekturen, um die Prompt-Qualität zu optimieren und teuren LLM-Token-Verbrauch einzusparen.

LLM optimization Prompt Quality Blockchain Payments Solana