← heapsort-ai

VRAM

10 items

DOC↑ trendingReddit r/LocalLLaMA·hace 19d

Latest b9274 Addresses MTP VRAM leak

La actualización b9274 aborda un problema de fuga de VRAM en los modelos MTP (Multi-Token Prediction), donde los recursos asignados a la GPU no se liberaban en los ciclos de suspensión/reanudación. La solución implica restablecer explícitamente los recursos del decodificador especulativo, el contexto de borrador y el modelo de borrador en la función destroy() para evitar errores de falta de memoria.

47
ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) es una capa de middleware que reemplaza la caché KV estándar de HuggingFace con un sistema de recuperación por niveles, moviendo datos antiguos a la RAM del sistema. Esto permite ventanas de contexto de 1 millón de tokens en una RTX 4070 (12GB VRAM) con solo 12MB de sobrecarga de VRAM y buen rendimiento.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

El autor compara los modelos GGUF MiniMax-M2.7 y Qwen3.5-122B-A10B para descarga completa local en un equipo con 96GB de VRAM. Para sus propósitos, prefiere Qwen3.5-122B, a pesar de que MiniMax está más cuantificado, destacando las compensaciones en el rendimiento de la inferencia local de LLMs.

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·6/5/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

El contenido compara la calidad de diferentes cuantizaciones del modelo Qwen 3.6 27B mediante una prueba de ajedrez para identificar la mejor opción para configuraciones con 16 GB de VRAM. La prueba evalúa la capacidad de los modelos para seguir el estado del tablero y generar imágenes SVG correctas.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·9/4/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

41
ARTICLEDEV.to AI·23/4/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

El autor ha lanzado una nueva herramienta beta, el "Local AI VRAM Calculator & GPU Planner", para ayudar a determinar los requisitos de GPU y VRAM para ejecutar LLMs localmente. Esta herramienta busca hacer visibles las compensaciones de hardware para diferentes cargas de trabajo y niveles de cuantificación antes de invertir en componentes.

39
NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Ryzen AI Max+ 495 (Gorgon Halo) with 192GB VRAM!

Las filtraciones sugieren que el AMD Ryzen AI Max+ PRO 495 (Gorgon Halo) podría incorporar una APU con 192 GB de VRAM, augurando un futuro brillante para la IA local. A pesar de los posibles altos costes debido a la crisis de almacenamiento, se especula que versiones futuras como el Medusa Halo en 2027 podrían alcanzar los 256 GB.

38
ARTICLEDEV.to AI·10/4/2026

i generated AI video on a GTX 1660. here's what it actually takes.

O artigo detalha o FramePack F1, uma ferramenta inovadora que permite gerar vídeos a partir de uma única imagem utilizando apenas 6 GB de VRAM, tornando-a acessível em GPUs comuns como a GTX 1660. Ele descreve a arquitetura de pipeline com cinco componentes, sublinhando a praticidade e a usabilidade local da solução para projetos reais.

23