hardware optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

ARTICLEDEV.to AI·il y a 18j

RAM Coffers: NUMA-Aware LLM Inference — Why Hardware Topology Still Matters

L'article explique comment la topologie de la mémoire NUMA, et pas seulement la VRAM, est un goulot d'étranglement critique pour l'inférence des LLM sur les serveurs multi-sockets, entraînant une dégradation significative du débit. RAM Coffers de RustChain résout ce problème en détectant la topologie NUMA et en optimisant l'allocation de mémoire et l'épinglage des threads pour des performances prévisibles et améliorées.

multi-socket servers NUMA LLM inference hardware optimization

RESEARCHarXiv CS.LG·il y a 22j

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Cet article présente la Group-Query Latent Attention (GQLA), une modification de la Multi-head Latent Attention (MLA). La GQLA expose deux chemins de décodage algébriquement équivalents, permettant à un seul ensemble de poids entraînés de s'adapter efficacement à différentes plateformes matérielles comme le H100 et le H20, sans réentraînement.

deep learning Attention Mechanism AI Efficiency hardware optimization