← heapsort-ai

hardware optimization

3 items

ARTICLEDEV.to AI·19d atrás

RAM Coffers: NUMA-Aware LLM Inference — Why Hardware Topology Still Matters

O artigo discute como a topologia de memória NUMA, e não apenas a VRAM, é um gargalo crítico para a inferência de LLMs em servidores multi-socket, causando degradação significativa na taxa de transferência. RAM Coffers da RustChain resolve isso detectando a topologia NUMA e otimizando a alocação de memória e o pinning de threads para desempenho previsível e aprimorado.

28
RESEARCHarXiv CS.LG·22d atrás

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Este artigo apresenta Group-Query Latent Attention (GQLA), uma modificação da Multi-head Latent Attention (MLA). GQLA expõe dois caminhos de decodificação algebricamente equivalentes, permitindo que um único conjunto de pesos treinados se adapte eficientemente a diferentes plataformas de hardware como H100 e H20, sem necessidade de retreinamento.

27