RESEARCH27
FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
arXiv CS.LG·24. April 2026
FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.
Original lesen ↗