heapsort
RESEARCH↑ trending42

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Reddit r/LocalLLaMA·21 de mayo de 2026

El autor logró 110 tok/s con 12GB de VRAM usando ik_llama.cpp en el modelo Qwen3.6 35B A3B, notando un gran aumento de velocidad. Este rendimiento superó al de llama.cpp regular después de la fusión de su PR MTP.

Leer original