RESEARCH27

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

arXiv CS.LG·18. Mai 2026

Dieses Papier stellt Group-Query Latent Attention (GQLA) vor, eine Modifikation der Multi-head Latent Attention (MLA). GQLA bietet zwei algebraisch äquivalente Dekodierungspfade, wodurch ein einziger Satz trainierter Gewichte ohne erneutes Training effizient an verschiedene Hardwareplattformen wie H100 und H20 angepasst werden kann.

deep learning Attention Mechanism AI Efficiency hardware optimization LLM

Original lesen ↗