hardware optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

ARTICLEDEV.to AI·19d atrás

RAM Coffers: NUMA-Aware LLM Inference — Why Hardware Topology Still Matters

O artigo discute como a topologia de memória NUMA, e não apenas a VRAM, é um gargalo crítico para a inferência de LLMs em servidores multi-socket, causando degradação significativa na taxa de transferência. RAM Coffers da RustChain resolve isso detectando a topologia NUMA e otimizando a alocação de memória e o pinning de threads para desempenho previsível e aprimorado.

multi-socket servers NUMA LLM inference hardware optimization

RESEARCHarXiv CS.LG·22d atrás

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Este artigo apresenta Group-Query Latent Attention (GQLA), uma modificação da Multi-head Latent Attention (MLA). GQLA expõe dois caminhos de decodificação algebricamente equivalentes, permitindo que um único conjunto de pesos treinados se adapte eficientemente a diferentes plataformas de hardware como H100 e H20, sem necessidade de retreinamento.

deep learning Attention Mechanism AI Efficiency hardware optimization