← heapsort-ai

QKV

1 items

RESEARCHarXiv CS.LG·5d atrás

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Este estudo avalia sistematicamente variantes da formulação de atenção QKV (Query, Key, Value) em Transformers, incluindo projeções de chave-valor, query-chave e únicas. Experimentos em tarefas sintéticas, de visão e modelagem de linguagem mostram que essas formulações alternativas performam tão bem ou melhor que Transformers QKV padrão, com a partilha Q-K=V reduzindo significativamente o cache KV na modelagem de linguagem.

29