← heapsort-ai

QKV

1 items

RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

29