GPU performance

5 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La carte Intel Arc Pro B70 32GB a atteint ~12 tps pour les requêtes uniques et 135 tps avec 32 concurrences sur Qwen3.5-27B@Q4, soit 20% de moins que la RTX PRO 4500. De plus, elle a consommé 50% plus d'énergie en forte concurrence, le parallélisme tensoriel dégradant les performances tandis que le parallélisme de pipeline les améliorait.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Get faster qwen 3.6 27b

Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.

llama.cpp AI optimization GPU performance GGUF

RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHarXiv CS.LG·06/04/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networks Optimization browsers Overhead