RESEARCH29
Do Transformers Need Three Projections? Systematic Study of QKV Variants
arXiv CS.LG·4. Juni 2026
Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.
Original lesen ↗