VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/MachineLearning·24/04/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Un nouvel optimiseur PyTorch nommé 'Rose' a été lancé, promettant une faible utilisation de VRAM, une convergence rapide et une excellente généralisation, sous licence Apache 2.0. Développé pendant plusieurs années, il vise à être facile à utiliser et plus économe en mémoire qu'AdamW 8 bits.

deep learning machine learning VRAM Optimization optimizer

RESEARCHDEV.to AI·il y a 7j

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Ce contenu partage des données de télémétrie matérielle issues d'un test architectural évaluant l'exécution de modèles à l'échelle frontière sur du matériel grand public très contraint. Il détaille l'évaluation comparative d'une architecture Mixture-of-Experts (MoE) de 284B paramètres, atteignant 0.00 Go de VRAM GPU active en découplant le stockage physique des poids de l'allocation graphique locale active.

Hardware Telemetry DeepSeek-V4-Flash AI Model Optimization VRAM Optimization