← heapsort-ai

GPU performance

5 items

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Get faster qwen 3.6 27b

Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.

42
RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

27
RESEARCHarXiv CS.LG·06/04/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

27