← heapsort-ai

VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

43
RESEARCHDEV.to AI·il y a 7j

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Ce contenu partage des données de télémétrie matérielle issues d'un test architectural évaluant l'exécution de modèles à l'échelle frontière sur du matériel grand public très contraint. Il détaille l'évaluation comparative d'une architecture Mixture-of-Experts (MoE) de 284B paramètres, atteignant 0.00 Go de VRAM GPU active en découplant le stockage physique des poids de l'allocation graphique locale active.

27