RESEARCH27
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding
arXiv CS.LG·18 de mayo de 2026
Este artículo introduce Group-Query Latent Attention (GQLA), una modificación de la Multi-head Latent Attention (MLA). GQLA expone dos rutas de decodificación algebraicamente equivalentes, permitiendo que un único conjunto de pesos entrenados se adapte eficientemente a diferentes plataformas de hardware como H100 y H20, sin necesidad de reentrenamiento.
Leer original ↗