← heapsort-ai

VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

43
RESEARCHDEV.to AI·vor 7T

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Dieser Inhalt teilt Hardware-Telemetriedaten aus einem Architekturtest zur Bewertung der Ausführung von Modellen im Grenzmaßstab auf stark eingeschränkter Standardhardware. Er beschreibt das Benchmarking einer 284B-Parameter Mixture-of-Experts (MoE)-Architektur, die 0,00 GB aktiven GPU-VRAM erreichte, indem sie die physische Gewichtsspeicherung von der aktiven lokalen Grafikkartenzuweisung entkoppelte.

27