heapsort
NEWS↑ trending42

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Reddit r/LocalLLaMA·22. April 2026
Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

Original lesen