RESEARCHarXiv CS.LG·4/24/2026
FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.
27