heapsort
NEWS↑ trending42

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Reddit r/LocalLLaMA·22 avril 2026
Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Lire l'original