RESEARCH↑ trending42

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Reddit r/LocalLLaMA·21 de mayo de 2026

El autor logró 110 tok/s con 12GB de VRAM usando ik_llama.cpp en el modelo Qwen3.6 35B A3B, notando un gran aumento de velocidad. Este rendimiento superó al de llama.cpp regular después de la fusión de su PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking AI performance

Leer original ↗