← heapsort-ai

LLM optimization

17 items

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

43
ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·06/05/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Ce message rapporte les résultats de la version 35B A3B des modèles Qwen3.6-35B-A3B UD XL avec MTP greffé, désormais disponibles sur HuggingFace. Les tests initiaux ont montré des gains de vitesse limités (6% pour Q4, 2,5% pour Q8) sur certaines configurations, bien que d'autres utilisateurs aient rapporté des améliorations plus significatives (jusqu'à 50%) selon leur matériel.

41
RESEARCHarXiv CS.CL·17/04/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Cet article propose un cadre unifié guidé par la détection compressée pour l'exécution dynamique des LLM, visant à réduire le nombre massif de paramètres, l'utilisation de la mémoire et la latence de décodage. Il intègre la compression de modèle et de prompt en utilisant des opérateurs de mesure aléatoires et une récupération parcimonieuse pour estimer des ensembles de support adaptés aux tâches et aux tokens.

31
ARTICLEDEV.to AI·il y a 19j

Stop Routing Your Prompts Through Shady AI Proxies: How to Compress LLM Tokens Locally in Node.js

Cet article met en garde contre l'utilisation de proxys d'IA tiers pour l'optimisation des coûts, citant de sérieux risques de sécurité pour les données propriétaires et des clients. Il propose une solution locale pour la compression de jetons LLM dans un environnement Node.js, éliminant le besoin d'intermédiaires non vérifiés.

28
RESEARCHarXiv CS.LG·23/04/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Cet article évalue le décodage spéculatif avec EAGLE3 pour optimiser l'agent commercial de PayPal, utilisant des modèles Nemotron affinés. L'étude démontre des améliorations de performance significatives, notamment une augmentation de 22-49% du débit et une réduction de 18-33% de la latence sans coût matériel supplémentaire.

28
ARTICLEDEV.to AI·16/04/2026

"The Hidden Cost of AI Compute: Why Token Efficiency is Your Competitive Advanta

L'article met en lumière le coût financier important et souvent sous-estimé du calcul d'IA, en particulier pour les modèles comme GPT-4, dû à la consommation de tokens. Il soutient que la plupart des implémentations sont inefficaces, des invites mal conçues et des systèmes entraînant des dépenses inutiles qui peuvent être 3 à 5 fois plus élevées que nécessaire.

28
RESEARCHDEV.to AI·il y a 20j

How Far Can a Small Coding Model Go With a Better Harness?

L'article examine les performances d'un petit modèle de codage (GPT-5.1-Codex-Mini) sur Terminal-Bench 2.0, atteignant un score de 61,6 % en optimisant son "harnais" plutôt qu'en utilisant un modèle plus grand. Cela met en évidence le rôle crucial de l'enveloppe du modèle dans les performances, surtout avec des modèles plus petits où les erreurs du harnais sont plus impactantes.

27
RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

27
RESEARCHDEV.to AI·09/05/2026

Adaptive reasoning reduces token usage up to 90% with minimal accuracy loss

Les formats de raisonnement adaptatif permettent aux modèles d'IA de décider quelles étapes de raisonnement sont nécessaires, réduisant l'utilisation de jetons jusqu'à 90% avec une perte minimale de précision. Cette méthode remplace les chaînes de calcul monolithiques par des alternatives légères choisies dynamiquement, surmontant les inefficacités coûteuses du raisonnement parallèle.

27
ARTICLEDEV.to AI·14/04/2026

I Open-Sourced the Most Overkill Claude Code Setup — 15 Agents, 17 Hooks, 60-99% Token Savings

L'auteur a mis en open-source un système avancé nommé "claude-god-mode" pour optimiser l'utilisation de Claude Code, résolvant les problèmes de consommation élevée de tokens et de faible qualité de code. Ce système combine plusieurs couches d'optimisation et 15 agents spécialisés, permettant des économies de tokens de 60 à 99% et une amélioration de la qualité du code généré.

27
ARTICLEDEV.to AI·24/04/2026

i burnt $127 in api credits before i fixed these openclaw mistakes

L'auteur raconte avoir brûlé 127 $ en crédits API à cause d'un agent IA (OpenClaw) qui bouclait inefficacement et utilisait des modèles coûteux pour des tâches simples. Il a résolu ce problème en mettant en œuvre des configurations de modèles hiérarchisées, attribuant des modèles d'IA appropriés à des types de tâches spécifiques pour optimiser les performances et réduire les coûts.

26
ARTICLEDEV.to AI·10/04/2026

Most of your Claude Code agents don't need Sonnet

O artigo apresenta uma estratégia de roteamento de 3 níveis para otimizar o custo de chamadas de agentes Claude Code, direcionando tarefas para o modelo de IA mais barato e adequado. O autor utiliza modelos caros como Sonnet apenas para tarefas que exigem raciocínio profundo, enquanto tarefas mais simples são atribuídas a modelos mais acessíveis como Haiku e Ollama.

25