LLM optimization

17 items

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

Ce contenu analyse la relation entre la taille du pool de threads du CPU dans LM Studio et la vitesse de génération de jetons (tk/s). Il se concentre spécifiquement sur les scénarios où certaines couches du modèle Mixture of Experts (MoE) sont déchargées sur le CPU pour optimiser les performances.

LLM optimization CPU performance MoE LM Studio

LM Studio CPU thread pool size vs. tk/s with some MoE layers offloaded to CPU

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 19j

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

L'auteur a atteint 110 tok/s avec 12GB de VRAM en utilisant ik_llama.cpp sur le modèle Qwen3.6 35B A3B, constatant une augmentation significative de la vitesse. Cette performance a dépassé celle de llama.cpp régulier après la fusion de son PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking

ARTICLE↑ trendingReddit r/LocalLLaMA·06/05/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Ce message rapporte les résultats de la version 35B A3B des modèles Qwen3.6-35B-A3B UD XL avec MTP greffé, désormais disponibles sur HuggingFace. Les tests initiaux ont montré des gains de vitesse limités (6% pour Q4, 2,5% pour Q8) sur certaines configurations, bien que d'autres utilisateurs aient rapporté des améliorations plus significatives (jusqu'à 50%) selon leur matériel.

AI models LLM optimization GGUF performance testing

RESEARCHarXiv CS.CL·17/04/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Cet article propose un cadre unifié guidé par la détection compressée pour l'exécution dynamique des LLM, visant à réduire le nombre massif de paramètres, l'utilisation de la mémoire et la latence de décodage. Il intègre la compression de modèle et de prompt en utilisant des opérateurs de mesure aléatoires et une récupération parcimonieuse pour estimer des ensembles de support adaptés aux tâches et aux tokens.

Model Compression LLM optimization sparse recovery compressed sensing

ARTICLEDEV.to AI·il y a 23j

How I Cut My LangGraph Agent's Token Costs by 93% with One Import

Cet article explique comment réduire de 93% les coûts de tokens des agents LangGraph en s'attaquant à leur nature sans état. L'auteur a découvert que plus de 90% du parcours du graphe était identique à travers les exécutions, payant ainsi pour un travail déjà effectué.

LangGraph LLM optimization token costs Cost Efficiency

ARTICLEDEV.to AI·il y a 19j

Stop Routing Your Prompts Through Shady AI Proxies: How to Compress LLM Tokens Locally in Node.js

Cet article met en garde contre l'utilisation de proxys d'IA tiers pour l'optimisation des coûts, citant de sérieux risques de sécurité pour les données propriétaires et des clients. Il propose une solution locale pour la compression de jetons LLM dans un environnement Node.js, éliminant le besoin d'intermédiaires non vérifiés.

LLM optimization data privacy security Node.js

RESEARCHarXiv CS.LG·23/04/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Cet article évalue le décodage spéculatif avec EAGLE3 pour optimiser l'agent commercial de PayPal, utilisant des modèles Nemotron affinés. L'étude démontre des améliorations de performance significatives, notamment une augmentation de 22-49% du débit et une réduction de 18-33% de la latence sans coût matériel supplémentaire.

Performance benchmarking LLM optimization Inference acceleration large language models

ARTICLEDEV.to AI·16/04/2026

"The Hidden Cost of AI Compute: Why Token Efficiency is Your Competitive Advanta

L'article met en lumière le coût financier important et souvent sous-estimé du calcul d'IA, en particulier pour les modèles comme GPT-4, dû à la consommation de tokens. Il soutient que la plupart des implémentations sont inefficaces, des invites mal conçues et des systèmes entraînant des dépenses inutiles qui peuvent être 3 à 5 fois plus élevées que nécessaire.

AI costs prompt-engineering LLM optimization cloud computing

RESEARCHDEV.to AI·il y a 20j

How Far Can a Small Coding Model Go With a Better Harness?

L'article examine les performances d'un petit modèle de codage (GPT-5.1-Codex-Mini) sur Terminal-Bench 2.0, atteignant un score de 61,6 % en optimisant son "harnais" plutôt qu'en utilisant un modèle plus grand. Cela met en évidence le rôle crucial de l'enveloppe du modèle dans les performances, surtout avec des modèles plus petits où les erreurs du harnais sont plus impactantes.

model performance LLM optimization Benchmarking code generation

RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHDEV.to AI·09/05/2026

Adaptive reasoning reduces token usage up to 90% with minimal accuracy loss

Les formats de raisonnement adaptatif permettent aux modèles d'IA de décider quelles étapes de raisonnement sont nécessaires, réduisant l'utilisation de jetons jusqu'à 90% avec une perte minimale de précision. Cette méthode remplace les chaînes de calcul monolithiques par des alternatives légères choisies dynamiquement, surmontant les inefficacités coûteuses du raisonnement parallèle.

Visual-language systems LLM optimization Token reduction AI Efficiency

ARTICLEDEV.to AI·14/04/2026

I Open-Sourced the Most Overkill Claude Code Setup — 15 Agents, 17 Hooks, 60-99% Token Savings

L'auteur a mis en open-source un système avancé nommé "claude-god-mode" pour optimiser l'utilisation de Claude Code, résolvant les problèmes de consommation élevée de tokens et de faible qualité de code. Ce système combine plusieurs couches d'optimisation et 15 agents spécialisés, permettant des économies de tokens de 60 à 99% et une amélioration de la qualité du code généré.

Open Source LLM optimization Claude code generation

ARTICLEDEV.to AI·24/04/2026

i burnt $127 in api credits before i fixed these openclaw mistakes

L'auteur raconte avoir brûlé 127 $ en crédits API à cause d'un agent IA (OpenClaw) qui bouclait inefficacement et utilisait des modèles coûteux pour des tâches simples. Il a résolu ce problème en mettant en œuvre des configurations de modèles hiérarchisées, attribuant des modèles d'IA appropriés à des types de tâches spécifiques pour optimiser les performances et réduire les coûts.

LLM optimization Cost Optimization AI development AI agents

ARTICLEDEV.to AI·10/04/2026

Most of your Claude Code agents don't need Sonnet

O artigo apresenta uma estratégia de roteamento de 3 níveis para otimizar o custo de chamadas de agentes Claude Code, direcionando tarefas para o modelo de IA mais barato e adequado. O autor utiliza modelos caros como Sonnet apenas para tarefas que exigem raciocínio profundo, enquanto tarefas mais simples são atribuídas a modelos mais acessíveis como Haiku e Ollama.

cost management model routing LLM optimization Claude

NEWSDEV.to AI·13/04/2026

Prompt Quality Score (PQS) Now Supports x402 Payments on Solana

Le Prompt Quality Score (PQS), une passerelle de qualité pour les flux de travail des agents IA, accepte désormais les paiements x402 sur Base mainnet et Solana. PQS évalue les invites selon 8 dimensions, fournissant un score et des corrections pour optimiser la qualité des invites et réduire les coûts des tokens LLM.

LLM optimization Prompt Quality Blockchain Payments Solana