FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
FairyFuse est un nouveau système d'inférence conçu pour les plateformes uniquement CPU, permettant l'exécution de grands modèles linguistiques sans multiplications. Il utilise des poids ternaires ({-1, 0, +1}) pour remplacer les multiplications en virgule flottante par des additions et soustractions conditionnelles, réduisant considérablement les goulots d'étranglement de la bande passante mémoire et offrant une compression de poids jusqu'à 16x.
