VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/MachineLearning·24/4/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Se ha lanzado un nuevo optimizador de PyTorch llamado 'Rose', que promete bajo uso de VRAM, convergencia rápida y excelente generalización, bajo licencia Apache 2.0. Desarrollado durante varios años, busca ser fácil de usar y más eficiente en memoria que AdamW de 8 bits.

deep learning machine learning VRAM Optimization optimizer

RESEARCHDEV.to AI·hace 7d

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Este contenido comparte datos de telemetría de hardware de una prueba arquitectónica que evalúa la ejecución de modelos a escala de frontera en hardware básico y restringido. Detalla la evaluación comparativa de una arquitectura Mixture-of-Experts (MoE) de 284B parámetros, logrando 0.00 GB de VRAM activa de GPU al desacoplar el almacenamiento físico de pesos de la asignación gráfica local activa.

Hardware Telemetry DeepSeek-V4-Flash AI Model Optimization VRAM Optimization