inference

28 items

RESEARCHarXiv CS.LG·4/24/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.

inference CPU optimization quantization performance

RESEARCHarXiv CS.LG·vor 18T

Harnesses for Inference-Time Alignment over Execution Trajectories

Diese Forschung untersucht Harness Engineering als Inferenzzeit-Technik für große Sprachmodell-Agenten (LLM), um die Langzeit-Performance durch Aufgabenzerlegung und geführte Ausführung zu verbessern. Sie quantifiziert, wie Designelemente wie Workflow-Granularität und Führung die Leistung beeinflussen, und deckt gängige Fehlerursachen wie Überzerlegung und halluzinierte Ausführung auf.

inference LLMs machine learning Task Decomposition

RESEARCHDEV.to AI·vor 12T

Sleep Phase Cuts Transformer Costs by Consolidating Memory

Ein neues Papier schlägt eine "Schlafphase" für Sprachmodelle vor, die den Kontext in festgroßen Speicher konsolidiert. Dies reduziert die quadratischen Inferenzkosten und verbessert die Leistung bei Aufgaben mit langem Horizont.

language models inference Transformer memory

DOCDEV.to AI·4/28/2026

How to Deploy Phi-3.5 Mini with vLLM on a $5/Month DigitalOcean Droplet: Lightweight Production Inference Under $60/Year

Dieser Artikel leitet Benutzer an, wie Microsofts Phi-3.5 Mini LLM mit vLLM auf einem 5 $/Monat DigitalOcean Droplet bereitgestellt wird. Das Setup bietet leichte Produktionsinferenz für unter 60 $ jährlich und zielt darauf ab, die Kosten im Vergleich zu teuren kommerziellen LLM-APIs drastisch zu senken.

inference cloud computing Cost Optimization LLM deployment

DOCTogether AI Blog·5/8/2026

Deploy and inference any model from HuggingFace

Diese Sitzung lehrt, wie man jedes Hugging Face-Modell mithilfe von Goose und Together's Dedicated Container Inference bereitstellt. Ziel ist es, die Einrichtungskomplexität zu vereinfachen und Modelle schnell in einer produktionsreifen GPU-Umgebung auszuführen.

inference learning GPU AI deployment

ARTICLEML Mastery·vor 11T

Serving Multiple Users at Once: How Continuous Batching Keeps LLM Inference Efficient

Dieser Artikel untersucht, wie Continuous Batching die Effizienz der LLM-Inferenz verbessert und die Probleme des statischen Batching angeht. Er beschreibt dynamische Planung und Ragged Batching zur gleichzeitigen Verarbeitung mehrerer Anfragen.

inference deep learning efficiency Batching

Serving Multiple Users at Once: How Continuous Batching Keeps LLM Inference Efficient

NEWSTogether AI Blog·3/17/2026

Mamba-3

Mamba-3 wird als neues Open-Source State Space Model (SSM) vorgestellt, das für Inferenz entwickelt wurde. Es bietet überragende Leistung, ist beim Dekodieren schneller als Transformers und stärker als Mamba-2.

open-source inference Mamba-3 SSM

NEWSDEV.to AI·4/18/2026

AI Hub Phase 8: Adding DeepInfra and Liquid AI — Now at 33 Providers

AI Hub Phase 8 gibt die Aufnahme von DeepInfra und Liquid AI bekannt, wodurch die Anzahl der Anbieter auf 33 erweitert wird. DeepInfra wird für seine Kosteneffizienz und den OpenAI-kompatiblen Endpunkt hervorgehoben, während Liquid AI eine neuartige, nicht-Transformer-Architektur für Aufgaben mit langem Kontext einführt.

AI platforms DeepInfra inference LLMs