sparse attention

2 items

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propose une attention clairsemée sensible à la localité pour résoudre le problème de l'attention liée à la mémoire et le problème d'inflation KV dans les modèles de langage de diffusion par blocs. La méthode réutilise les résultats d'attention mis en cache pour les jetons stables et applique une attention clairsemée uniquement aux jetons actifs, améliorant ainsi la vitesse et la précision.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·15/04/2026

Gemma 4: Byte for byte, the most capable open models

Gemma 4 est un modèle de langage ouvert très performant et économe en paramètres, atteignant des performances de pointe. Il utilise une architecture de transformateur avec des innovations telles que l'attention sparse et les optimisations FFN pour réduire les coûts de calcul et accélérer l'inférence.

Parameter efficiency Transformer Architecture Gemma 4 sparse attention