RESEARCH27

Sleep Phase Cuts Transformer Costs by Consolidating Memory

DEV.to AI·29 mai 2026

Un nouvel article propose une phase de "sommeil" pour les modèles de langage, consolidant le contexte en mémoire de taille fixe. Cela réduit les coûts d'inférence quadratiques et améliore les performances sur les tâches à long terme.

language models inference Transformer memory cost reduction

Lire l'original ↗