VRAM

10 items

DOC↑ trendingReddit r/LocalLLaMA·hace 19d

Latest b9274 Addresses MTP VRAM leak

La actualización b9274 aborda un problema de fuga de VRAM en los modelos MTP (Multi-Token Prediction), donde los recursos asignados a la GPU no se liberaban en los ciclos de suspensión/reanudación. La solución implica restablecer explícitamente los recursos del decodificador especulativo, el contexto de borrador y el modelo de borrador en la función destroy() para evitar errores de falta de memoria.

server MTP VRAM memory leak

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) es una capa de middleware que reemplaza la caché KV estándar de HuggingFace con un sistema de recuperación por niveles, moviendo datos antiguos a la RAM del sistema. Esto permite ventanas de contexto de 1 millón de tokens en una RTX 4070 (12GB VRAM) con solo 12MB de sobrecarga de VRAM y buen rendimiento.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

El autor compara los modelos GGUF MiniMax-M2.7 y Qwen3.5-122B-A10B para descarga completa local en un equipo con 96GB de VRAM. Para sus propósitos, prefiere Qwen3.5-122B, a pesar de que MiniMax está más cuantificado, destacando las compensaciones en el rendimiento de la inferencia local de LLMs.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

RESEARCH↑ trendingReddit r/LocalLLaMA·6/5/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

El contenido compara la calidad de diferentes cuantizaciones del modelo Qwen 3.6 27B mediante una prueba de ajedrez para identificar la mejor opción para configuraciones con 16 GB de VRAM. La prueba evalúa la capacidad de los modelos para seguir el estado del tablero y generar imágenes SVG correctas.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

ARTICLE↑ trendingReddit r/LocalLLaMA·9/4/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

LLMs VRAM modelos de linguagem hardware

ARTICLEDEV.to AI·23/4/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

El autor ha lanzado una nueva herramienta beta, el "Local AI VRAM Calculator & GPU Planner", para ayudar a determinar los requisitos de GPU y VRAM para ejecutar LLMs localmente. Esta herramienta busca hacer visibles las compensaciones de hardware para diferentes cargas de trabajo y niveles de cuantificación antes de invertir en componentes.

LLMs GPU VRAM AI tools

NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Ryzen AI Max+ 495 (Gorgon Halo) with 192GB VRAM!

Las filtraciones sugieren que el AMD Ryzen AI Max+ PRO 495 (Gorgon Halo) podría incorporar una APU con 192 GB de VRAM, augurando un futuro brillante para la IA local. A pesar de los posibles altos costes debido a la crisis de almacenamiento, se especula que versiones futuras como el Medusa Halo en 2027 podrían alcanzar los 256 GB.

Ryzen AI VRAM AMD Local AI

ARTICLEDEV.to AI·8/4/2026

99.8% of LLM Inference Power Isn't Spent on Computation

O artigo argumenta que o consumo de energia é o maior gargalo na inferência de LLMs, mais do que largura de banda ou VRAM, devido a limitações físicas. Isso se deve ao colapso da Lei de Dennard por volta de 2006, que impediu a redução automática do consumo de energia com o encolhimento dos transistores.

power consumption Bandwidth AI hardware VRAM

RESEARCHarXiv CS.AI·hace 6d

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

El artículo presenta AURA-Mem, una nueva arquitectura de memoria recurrente para robots que mantiene un tamaño constante de VRAM. A diferencia del KV-cache, AURA-Mem utiliza una compuerta aprendida que escribe solo cuando la observación actual cambia la próxima acción, siendo más adecuada para agentes integrados con hardware limitado.

robot policies VRAM embodied AI robotics

ARTICLEDEV.to AI·10/4/2026

i generated AI video on a GTX 1660. here's what it actually takes.

O artigo detalha o FramePack F1, uma ferramenta inovadora que permite gerar vídeos a partir de uma única imagem utilizando apenas 6 GB de VRAM, tornando-a acessível em GPUs comuns como a GTX 1660. Ele descreve a arquitetura de pipeline com cinco componentes, sublinhando a praticidade e a usabilidade local da solução para projetos reais.

GPU VRAM IA FramePack