← heapsort-ai

Inference Optimization

11 items

ARTICLEDEV.to AI·19/04/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Le contenu met en lumière l'optimisation de l'inférence comme la tendance critique façonnant l'infrastructure LLM d'ici 2026, soulignant son importance par rapport à la taille du modèle. Il explique que si la formation est un coût unique, l'inférence est une dépense continue qui impacte directement les marges et l'expérience utilisateur, rendant l'efficacité primordiale.

30
RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Cet article introduit une stratégie bidimensionnelle de « early exit » pour les tâches de classification des LLM, coordonnant la sortie par couche et par phrase. Cette méthode permet des économies de calcul multiplicatives et des accélérations de 1.4 à 2.3 fois par rapport à l'approche par couche seule, applicable à divers LLM pour des tâches plus simples.

29
RESEARCHarXiv CS.CL·il y a 7j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

29
RESEARCHarXiv CS.CL·23/04/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV propose un cadre de gestion de cache KV à niveaux temporels pour les LLM, inspiré de la mémoire humaine, afin de résoudre le problème de l'échelle linéaire de la mémoire du cache KV. Il partitionne le cache en niveaux avec une capacité et une précision hétérogènes, attribuant les états KV plus récents aux niveaux plus rapides et de plus haute précision.

28
ARTICLEDEV.to AI·15/04/2026

The Hidden Cost of Running LLM Applications at Scale

Cet article traite du problème courant des coûts d'exécution des LLM en production qui augmentent de manière inattendue, expliquant que la cause n'est pas le coût direct du modèle mais plutôt des décisions de conception initiales. Une erreur clé identifiée est l'utilisation d'un point d'accès d'inférence unique et coûteux pour tous les types de requêtes, sans optimisation.

28
RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

27
RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.

27
RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Cet article présente TRACES, un framework léger conçu pour optimiser les Modèles de Raisonnement Linguistique (LRMs) en étiquetant les étapes de raisonnement en temps réel. Il permet un arrêt précoce adaptatif et rentable des inférences LRM, s'attaquant à leur inefficacité actuelle et à la sur-génération d'étapes de vérification.

27
RESEARCHarXiv CS.CL·21/04/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Cette recherche évalue le décodage spéculatif inter-familles pour les LLM polonais sur Apple Silicon, en étendant le cadre MLX-LM avec la Génération Assistée Universelle (UAG) pour la compatibilité inter-tokeniseurs. Les expériences montrent que la traduction de jetons sensible au contexte améliore considérablement les taux d'acceptation du Bielik 11B sur des jeux de données en langue polonaise.

27