RESEARCH27

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

arXiv CS.CL·3 de junio de 2026

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

neural networks LLMs deep learning Attention Mechanism Transformers

Leer original ↗