← heapsort-ai

GPU performance

5 items

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

42
RESEARCHarXiv CS.LG·6/4/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

27