RESEARCH27

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

arXiv CS.LG·24. April 2026

Dieses Papier stellt Gist Sparse Attention (GSA) vor, eine end-to-end lernbare Methode zur Skalierung großer Sprachmodelle auf lange Kontexte ohne Architekturmodifikationen. GSA komprimiert den Kontext in 'Gist-Tokens' zur Zusammenfassung und stellt dann selektiv relevante Rohabschnitte für detaillierte Aufmerksamkeit wieder her, wodurch kompakte globale Repräsentationen mit gezieltem Zugriff auf feinkörnige Details kombiniert werden.

neural networks model efficiency attention mechanisms large language models

Original lesen ↗