Inference Optimization

11 items

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare a développé Unweight, un système de compression sans perte qui réduit les poids des LLM de 15 à 22% pour optimiser l'inférence sur GPU. Il compresse les octets des exposants des poids BF16 via le codage de Huffman, préservant ainsi la qualité exacte des sorties.

GPU optimization lossless compression LLM compression Inference Optimization

Unweight: how we compressed an LLM 22% without sacrificing quality

ARTICLEDEV.to AI·19/04/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Le contenu met en lumière l'optimisation de l'inférence comme la tendance critique façonnant l'infrastructure LLM d'ici 2026, soulignant son importance par rapport à la taille du modèle. Il explique que si la formation est un coût unique, l'inférence est une dépense continue qui impacte directement les marges et l'expérience utilisateur, rendant l'efficacité primordiale.

quantization AI infrastructure Inference Optimization Cost Efficiency

RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Cet article introduit une stratégie bidimensionnelle de « early exit » pour les tâches de classification des LLM, coordonnant la sortie par couche et par phrase. Cette méthode permet des économies de calcul multiplicatives et des accélérations de 1.4 à 2.3 fois par rapport à l'approche par couche seule, applicable à divers LLM pour des tâches plus simples.

LLMs Computational Efficiency Inference Optimization

RESEARCHarXiv CS.CL·il y a 7j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

LLMs NLP Inference Optimization Speculative Decoding

RESEARCHarXiv CS.CL·23/04/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV propose un cadre de gestion de cache KV à niveaux temporels pour les LLM, inspiré de la mémoire humaine, afin de résoudre le problème de l'échelle linéaire de la mémoire du cache KV. Il partitionne le cache en niveaux avec une capacité et une précision hétérogènes, attribuant les états KV plus récents aux niveaux plus rapides et de plus haute précision.

neural networks LLMs memory management Inference Optimization

ARTICLEDEV.to AI·15/04/2026

The Hidden Cost of Running LLM Applications at Scale

Cet article traite du problème courant des coûts d'exécution des LLM en production qui augmentent de manière inattendue, expliquant que la cause n'est pas le coût direct du modèle mais plutôt des décisions de conception initiales. Une erreur clé identifiée est l'utilisation d'un point d'accès d'inférence unique et coûteux pour tous les types de requêtes, sans optimisation.

multi-tenant LLM production systems LLM costs AI economics

ARTICLEDEV.to AI·26/04/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 offre un contexte de 1 million de tokens réellement utilisable, résolvant le problème de mémoire GPU grâce à une architecture d'attention hybride qui compresse le cache KV de près de 9x. Cela en fait une solution pratique pour l'inférence à long contexte, contrairement à de nombreux autres modèles.

DeepSeek AI models Model Architecture large language models

RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Cet article présente TRACES, un framework léger conçu pour optimiser les Modèles de Raisonnement Linguistique (LRMs) en étiquetant les étapes de raisonnement en temps réel. Il permet un arrêt précoce adaptatif et rentable des inférences LRM, s'attaquant à leur inefficacité actuelle et à la sur-génération d'étapes de vérification.

LLMs early stopping Reasoning Inference Optimization

RESEARCHarXiv CS.CL·21/04/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Cette recherche évalue le décodage spéculatif inter-familles pour les LLM polonais sur Apple Silicon, en étendant le cadre MLX-LM avec la Génération Assistée Universelle (UAG) pour la compatibilité inter-tokeniseurs. Les expériences montrent que la traduction de jetons sensible au contexte améliore considérablement les taux d'acceptation du Bielik 11B sur des jeux de données en langue polonaise.

apple-silicon natural language processing Inference Optimization Speculative Decoding