VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/MachineLearning·4/24/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Ein neuer PyTorch-Optimierer namens 'Rose' wurde veröffentlicht, der geringen VRAM-Verbrauch, schnelle Konvergenz und exzellente Generalisierung verspricht und unter Apache 2.0 lizenziert ist. Über mehrere Jahre entwickelt, soll er benutzerfreundlich und speichereffizienter als 8-bit AdamW sein.

deep learning machine learning VRAM Optimization optimizer

RESEARCHDEV.to AI·vor 7T

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Dieser Inhalt teilt Hardware-Telemetriedaten aus einem Architekturtest zur Bewertung der Ausführung von Modellen im Grenzmaßstab auf stark eingeschränkter Standardhardware. Er beschreibt das Benchmarking einer 284B-Parameter Mixture-of-Experts (MoE)-Architektur, die 0,00 GB aktiven GPU-VRAM erreichte, indem sie die physische Gewichtsspeicherung von der aktiven lokalen Grafikkartenzuweisung entkoppelte.

Hardware Telemetry DeepSeek-V4-Flash AI Model Optimization VRAM Optimization