RESEARCH27

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

arXiv CS.LG·24 avril 2026

Cet article introduit Gist Sparse Attention (GSA), une méthode entièrement apprenable pour adapter les grands modèles de langage à des contextes longs sans modification architecturale. Le GSA compresse le contexte en 'tokens de substance' pour un résumé, puis restaure sélectivement les fragments bruts pertinents pour une attention détaillée, combinant des représentations globales compactes avec un accès ciblé aux détails.

neural networks model efficiency Attention Mechanisms large language models

Lire l'original ↗