heapsort
NEWS↑ trending42

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Reddit r/LocalLLaMA·22 de abril de 2026
Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI ha lanzado en código abierto FlashKDA, un kernel CUTLASS C++ para Kimi Delta Attention, logrando mejoras de rendimiento de hasta 2.22x sobre la línea base de Triton en benchmarks H20. Esta implementación acelera arquitecturas de atención lineal.

Leer original