heapsort
NEWS↑ trending42

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Reddit r/LocalLLaMA·22 de abril de 2026
Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

A Moonshot AI lançou em código aberto o FlashKDA, um kernel CUTLASS C++ para Kimi Delta Attention, que oferece melhorias de desempenho de até 2.22x sobre o baseline Triton no H20. Esta implementação visa otimizar arquiteturas de atenção linear.

Ler original