← heapsort-ai

hardware optimization

3 items

ARTICLEDEV.to AI·hace 18d

RAM Coffers: NUMA-Aware LLM Inference — Why Hardware Topology Still Matters

El artículo aborda cómo la topología de memoria NUMA, y no solo la VRAM, es un cuello de botella crítico para la inferencia de LLMs en servidores multi-socket, causando una degradación significativa del rendimiento. RAM Coffers de RustChain lo resuelve detectando la topología NUMA y optimizando la asignación de memoria y el anclaje de hilos para un rendimiento predecible y mejorado.

28
RESEARCHarXiv CS.LG·hace 22d

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Este artículo introduce Group-Query Latent Attention (GQLA), una modificación de la Multi-head Latent Attention (MLA). GQLA expone dos rutas de decodificación algebraicamente equivalentes, permitiendo que un único conjunto de pesos entrenados se adapte eficientemente a diferentes plataformas de hardware como H100 y H20, sin necesidad de reentrenamiento.

27