FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
FairyFuse es un nuevo sistema de inferencia diseñado para plataformas solo de CPU, que permite la ejecución de modelos de lenguaje grandes sin multiplicaciones. Utiliza pesos ternarios ({-1, 0, +1}) para reemplazar las multiplicaciones de punto flotante con adiciones y sustracciones condicionales, reduciendo significativamente los cuellos de botella de ancho de banda de memoria y ofreciendo una compresión de peso de hasta 16x.
