Do Transformers Need Three Projections? Systematic Study of QKV Variants
Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.