VRAM Optimization

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artigo detalha uma nova estratégia de cache de especialistas dinâmicos em llama.cpp para acelerar a geração de tokens em modelos MoE grandes como Qwen3.5-122B-A10B. A abordagem carrega os especialistas mais utilizados na VRAM, resultando em até 26,8% mais velocidade em comparação com o descarregamento parcial baseado em camadas.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/MachineLearning·24/04/2026

[New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P]

Foi lançado um novo otimizador PyTorch chamado 'Rose', que promete baixo uso de VRAM, convergência rápida e excelente generalização, licenciado sob Apache 2.0. Desenvolvido ao longo de vários anos, ele visa ser fácil de usar e mais eficiente em memória do que o AdamW de 8 bits.

deep learning machine learning VRAM Optimization optimizer

RESEARCHDEV.to AI·7d atrás

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Este conteúdo compartilha dados de telemetria de hardware de um teste arquitetônico que avalia a execução de modelos de escala de fronteira em hardware comum e restrito. Ele detalha a avaliação de uma arquitetura Mixture-of-Experts (MoE) de 284B parâmetros, alcançando 0.00 GB de VRAM ativa da GPU ao desacoplar o armazenamento físico de pesos da alocação gráfica local ativa.

Hardware Telemetry DeepSeek-V4-Flash AI Model Optimization VRAM Optimization