← heapsort-ai

sparse attention

2 items

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propose une attention clairsemée sensible à la localité pour résoudre le problème de l'attention liée à la mémoire et le problème d'inflation KV dans les modèles de langage de diffusion par blocs. La méthode réutilise les résultats d'attention mis en cache pour les jetons stables et applique une attention clairsemée uniquement aux jetons actifs, améliorant ainsi la vitesse et la précision.

27