RESEARCH27

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

arXiv CS.CL·3. Juni 2026

Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.

neural networks LLMs deep learning Attention Mechanism Transformers

Original lesen ↗