RESEARCH27
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding
arXiv CS.LG·18 mai 2026
Cet article présente la Group-Query Latent Attention (GQLA), une modification de la Multi-head Latent Attention (MLA). La GQLA expose deux chemins de décodage algébriquement équivalents, permettant à un seul ensemble de poids entraînés de s'adapter efficacement à différentes plateformes matérielles comme le H100 et le H20, sans réentraînement.
Lire l'original ↗