← heapsort-ai

Inference Optimization

11 items

ARTICLEDEV.to AI·4/19/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Der Inhalt hebt Inferenzoptimierung als den kritischen Trend hervor, der die LLM-Infrastruktur bis 2026 prägen wird, und betont deren Bedeutung gegenüber der Modellgröße. Es wird erklärt, dass Training zwar eine einmalige Ausgabe ist, Inferenz jedoch eine fortlaufende Ausgabe darstellt, die Margen und Benutzererfahrung direkt beeinflusst und Effizienz somit entscheidend macht.

30
RESEARCHarXiv CS.CL·vor 7T

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Dieses Papier schlägt SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) vor, um Retrieval-basierte Spekulative Dekodierung (RSD) für LLMs zu verbessern. SENSE adressiert die starren lexikalischen Abhängigkeiten von RSD, indem es robuste semantische Ausrichtung und ein Soft-gated Evaluationsmodul verwendet, um semantische Äquivalenz zu validieren.

29
RESEARCHarXiv CS.CL·4/23/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV schlägt ein zeitlich gestaffeltes KV-Cache-Management-Framework für LLMs vor, das von menschlichen Gedächtnissystemen inspiriert ist, um das Problem der linearen Skalierung des KV-Cache-Speichers zu lösen. Es teilt den Cache in Schichten mit heterogener Kapazität und Präzision auf, wobei neuere KV-Zustände schnelleren, hochpräzisen Schichten zugewiesen werden.

28
RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

27
RESEARCHarXiv CS.CL·4/30/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV ist eine neuartige spekulative Decodierungsmethode, die Multi-Draft- und Greedy-Block-Verifizierung vereint, um die Inferenz von Sprachmodellen zu beschleunigen. Sie formuliert den Verifizierungsschritt als optimales Transportproblem, was die theoretische Effizienz und die empirische Leistung verbessert, indem sie die optimal erreichbare erwartete Akzeptanzlänge erreicht.

27
RESEARCHarXiv CS.CL·4/24/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Dieses Papier stellt TRACES vor, ein leichtgewichtiges Framework zur Optimierung von Sprachbegründungsmodellen (LRMs) durch das Echtzeit-Tagging von Begründungsschritten. Es ermöglicht ein adaptives, kosteneffizientes vorzeitiges Beenden von LRM-Inferenzen und adressiert deren derzeitige Ineffizienz und die Überproduktion von Verifizierungsschritten.

27
RESEARCHarXiv CS.CL·4/21/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Diese Forschung bewertet spekulatives Decoding für polnische LLMs auf Apple Silicon und erweitert das MLX-LM-Framework um Universal Assisted Generation (UAG) für Cross-Tokenizer-Kompatibilität. Experimente zeigen, dass kontextbewusste Token-Übersetzung die Akzeptanzraten für Bielik 11B auf polnischsprachigen Datensätzen signifikant verbessert.

27