RESEARCH27
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding
arXiv CS.LG·18. Mai 2026
Dieses Papier stellt Group-Query Latent Attention (GQLA) vor, eine Modifikation der Multi-head Latent Attention (MLA). GQLA bietet zwei algebraisch äquivalente Dekodierungspfade, wodurch ein einziger Satz trainierter Gewichte ohne erneutes Training effizient an verschiedene Hardwareplattformen wie H100 und H20 angepasst werden kann.
Original lesen ↗