RESEARCH27

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

arXiv CS.LG·18 de maio de 2026

Este artigo apresenta Group-Query Latent Attention (GQLA), uma modificação da Multi-head Latent Attention (MLA). GQLA expõe dois caminhos de decodificação algebricamente equivalentes, permitindo que um único conjunto de pesos treinados se adapte eficientemente a diferentes plataformas de hardware como H100 e H20, sem necessidade de retreinamento.

deep learning Attention Mechanism AI Efficiency hardware optimization LLM

Ler original ↗