RESEARCH27

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

arXiv CS.LG·24. April 2026

FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.

inference CPU optimization quantization performance LLM

Original lesen ↗