RESEARCH27

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

arXiv CS.LG·18 mai 2026

Cet article présente la Group-Query Latent Attention (GQLA), une modification de la Multi-head Latent Attention (MLA). La GQLA expose deux chemins de décodage algébriquement équivalents, permettant à un seul ensemble de poids entraînés de s'adapter efficacement à différentes plateformes matérielles comme le H100 et le H20, sans réentraînement.

deep learning Attention Mechanism AI Efficiency hardware optimization LLM

Lire l'original ↗