← heapsort-ai

inference

28 items

RESEARCHarXiv CS.LG·4/24/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.

27
RESEARCHarXiv CS.LG·vor 18T

Harnesses for Inference-Time Alignment over Execution Trajectories

Diese Forschung untersucht Harness Engineering als Inferenzzeit-Technik für große Sprachmodell-Agenten (LLM), um die Langzeit-Performance durch Aufgabenzerlegung und geführte Ausführung zu verbessern. Sie quantifiziert, wie Designelemente wie Workflow-Granularität und Führung die Leistung beeinflussen, und deckt gängige Fehlerursachen wie Überzerlegung und halluzinierte Ausführung auf.

27
DOCDEV.to AI·4/28/2026

How to Deploy Phi-3.5 Mini with vLLM on a $5/Month DigitalOcean Droplet: Lightweight Production Inference Under $60/Year

Dieser Artikel leitet Benutzer an, wie Microsofts Phi-3.5 Mini LLM mit vLLM auf einem 5 $/Monat DigitalOcean Droplet bereitgestellt wird. Das Setup bietet leichte Produktionsinferenz für unter 60 $ jährlich und zielt darauf ab, die Kosten im Vergleich zu teuren kommerziellen LLM-APIs drastisch zu senken.

27
NEWSTogether AI Blog·3/17/2026

Mamba-3

Mamba-3 wird als neues Open-Source State Space Model (SSM) vorgestellt, das für Inferenz entwickelt wurde. Es bietet überragende Leistung, ist beim Dekodieren schneller als Transformers und stärker als Mamba-2.

27