Sleep Phase Cuts Transformer Costs by Consolidating Memory
Un nuevo artículo propone una fase de "sueño" para modelos de lenguaje, consolidando el contexto en memoria de tamaño fijo. Esto reduce el costo de inferencia cuadrático y mejora el rendimiento en tareas de horizonte largo.