← heapsort-ai

VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

43
RESEARCHDEV.to AI·hace 7d

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Este contenido comparte datos de telemetría de hardware de una prueba arquitectónica que evalúa la ejecución de modelos a escala de frontera en hardware básico y restringido. Detalla la evaluación comparativa de una arquitectura Mixture-of-Experts (MoE) de 284B parámetros, logrando 0.00 GB de VRAM activa de GPU al desacoplar el almacenamiento físico de pesos de la asignación gráfica local activa.

27