heapsort
RESEARCH29

Do Transformers Need Three Projections? Systematic Study of QKV Variants

arXiv CS.LG·4 de junho de 2026

Este estudo avalia sistematicamente variantes da formulação de atenção QKV (Query, Key, Value) em Transformers, incluindo projeções de chave-valor, query-chave e únicas. Experimentos em tarefas sintéticas, de visão e modelagem de linguagem mostram que essas formulações alternativas performam tão bem ou melhor que Transformers QKV padrão, com a partilha Q-K=V reduzindo significativamente o cache KV na modelagem de linguagem.

Ler original