RESEARCHarXiv CS.CL·15/04/2026
LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
LoSA propose une attention clairsemée sensible à la localité pour résoudre le problème de l'attention liée à la mémoire et le problème d'inflation KV dans les modèles de langage de diffusion par blocs. La méthode réutilise les résultats d'attention mis en cache pour les jetons stables et applique une attention clairsemée uniquement aux jetons actifs, améliorant ainsi la vitesse et la précision.
27