RESEARCH27
Do Value Vectors in Deep Layers Need Context from the Residual Stream?
arXiv CS.CL·3. Juni 2026
Forscher haben herausgefunden, dass die Leistung von Sprachmodellen erheblich verbessert werden kann, wenn tiefere Schichten kontextfreie Wertvektoren lernen, die die ursprünglichen Token-Informationen bewahren. Dies macht eine Neuberechnung oder persistente Speicherung dieser Werte überflüssig, da die kontextabhängige Komponente nur geringen zusätzlichen Nutzen bietet.
Original lesen ↗