hardware optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

ARTICLEDEV.to AI·vor 18T

RAM Coffers: NUMA-Aware LLM Inference — Why Hardware Topology Still Matters

Der Artikel erörtert, wie die NUMA-Speichertopologie, nicht nur VRAM, ein kritischer Engpass für die LLM-Inferenz auf Multi-Socket-Servern ist und zu einer erheblichen Verschlechterung des Durchsatzes führt. RustChains RAM Coffers löst dies, indem es die NUMA-Topologie erkennt und die Speicherzuweisung sowie die Thread-Anheftung für eine vorhersehbare, verbesserte Leistung optimiert.

multi-socket servers NUMA LLM inference hardware optimization

RESEARCHarXiv CS.LG·vor 22T

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Dieses Papier stellt Group-Query Latent Attention (GQLA) vor, eine Modifikation der Multi-head Latent Attention (MLA). GQLA bietet zwei algebraisch äquivalente Dekodierungspfade, wodurch ein einziger Satz trainierter Gewichte ohne erneutes Training effizient an verschiedene Hardwareplattformen wie H100 und H20 angepasst werden kann.

deep learning Attention Mechanism AI Efficiency hardware optimization