ARTICLE↑ trending43

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Reddit r/LocalLLaMA·15 de abril de 2026

Este artigo detalha uma nova estratégia de cache de especialistas dinâmicos em llama.cpp para acelerar a geração de tokens em modelos MoE grandes como Qwen3.5-122B-A10B. A abordagem carrega os especialistas mais utilizados na VRAM, resultando em até 26,8% mais velocidade em comparação com o descarregamento parcial baseado em camadas.

Token Generation llama.cpp VRAM Optimization MoE AI performance

Ler original ↗