CPU optimization — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·24/04/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse é um novo sistema de inferência projetado para plataformas exclusivas de CPU, que permite a execução de modelos de linguagem grandes sem multiplicações. Ele utiliza pesos ternários ({-1, 0, +1}) para substituir multiplicações de ponto flutuante por adições e subtrações condicionais, reduzindo significativamente os gargalos de largura de banda de memória e oferecendo compressão de peso de até 16x.

inference CPU optimization quantization performance