RESEARCH27

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

arXiv CS.LG·24 de abril de 2026

Este artículo presenta Gist Sparse Attention (GSA), un método de aprendizaje de extremo a extremo para escalar grandes modelos de lenguaje a contextos largos sin modificaciones arquitectónicas. GSA comprime el contexto en 'tokens de esencia' para resumir y luego restaura selectivamente fragmentos brutos relevantes para una atención detallada, combinando representaciones globales compactas con acceso específico y granular.

neural networks model efficiency attention mechanisms large language models

Leer original ↗