RESEARCH27

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

arXiv CS.CL·3 juin 2026

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

neural networks LLMs deep learning Attention Mechanism Transformers

Lire l'original ↗