RESEARCH27

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

arXiv CS.LG·18 de mayo de 2026

Este artículo introduce Group-Query Latent Attention (GQLA), una modificación de la Multi-head Latent Attention (MLA). GQLA expone dos rutas de decodificación algebraicamente equivalentes, permitiendo que un único conjunto de pesos entrenados se adapte eficientemente a diferentes plataformas de hardware como H100 y H20, sin necesidad de reentrenamiento.

deep learning Attention Mechanism AI Efficiency hardware optimization LLM

Leer original ↗