NEWS↑ trending42
Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
Reddit r/LocalLLaMA·22 de abril de 2026

Moonshot AI ha lanzado en código abierto FlashKDA, un kernel CUTLASS C++ para Kimi Delta Attention, logrando mejoras de rendimiento de hasta 2.22x sobre la línea base de Triton en benchmarks H20. Esta implementación acelera arquitecturas de atención lineal.
Leer original ↗