RESEARCH27
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding
arXiv CS.LG·18 de maio de 2026
Este artigo apresenta Group-Query Latent Attention (GQLA), uma modificação da Multi-head Latent Attention (MLA). GQLA expõe dois caminhos de decodificação algebricamente equivalentes, permitindo que um único conjunto de pesos treinados se adapte eficientemente a diferentes plataformas de hardware como H100 e H20, sem necessidade de retreinamento.
Ler original ↗