GPU performance

5 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La tarjeta Intel Arc Pro B70 32GB alcanzó ~12 tps para consultas únicas y 135 tps con 32 concurrencias en Qwen3.5-27B@Q4, siendo un 20% menos que la RTX PRO 4500. Adicionalmente, consumió un 50% más de energía en alta concurrencia, con el paralelismo de tensor degradando y el de pipeline mejorando el rendimiento.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

llama.cpp AI optimization GPU performance GGUF

RESEARCHDEV.to AI·hace 22d

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Este contenido describe un experimento de tres meses para optimizar el rendimiento de decodificación del modelo Qwen3.6-27B en una GPU RTX 3090 Ti. El proyecto logró mejorar la velocidad de decodificación de 43 a 39-49 tokens por segundo, utilizando una nueva técnica de decodificación especulativa (MTP) en llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHarXiv CS.LG·6/4/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networks Optimization browsers Overhead