Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

![Elastic Attention Cores for Scalable Vision Transformers [R]](/cdn-cgi/image/width=3840,quality=75,format=webp/https://preview.redd.it/zjea47ez7w0h1.png?width=140&height=140&crop=1:1,smart&auto=webp&s=2017a3d330a172670baae5645ddff3137bbe1df6)