← heapsort-ai

VRAM

10 items

DOC↑ trendingReddit r/LocalLLaMA·il y a 19j

Latest b9274 Addresses MTP VRAM leak

La mise à jour b9274 résout un problème de fuite de VRAM dans les modèles MTP (Multi-Token Prediction), où les ressources allouées au GPU n'étaient pas libérées lors des cycles de veille/reprise. La correction implique la réinitialisation explicite des ressources du décodeur spéculatif, du contexte de brouillon et du modèle de brouillon dans la fonction destroy() afin d'éviter les erreurs de manque de mémoire.

47
ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

L'auteur compare les modèles GGUF MiniMax-M2.7 et Qwen3.5-122B-A10B pour le déchargement complet local sur un système avec 96 Go de VRAM. Pour ses besoins, le Qwen3.5-122B est préféré, même si MiniMax est plus quantifié, soulignant les compromis de performance pour l'inférence LLM locale.

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·06/05/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Ce contenu compare la qualité de différentes quantifications du modèle Qwen 3.6 27B à l'aide d'un test de jeu d'échecs personnalisé afin de trouver l'option optimale pour les configurations avec 16 Go de VRAM. Il évalue la capacité des modèles à suivre les états du plateau et à générer des images SVG précises.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·09/04/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

41
ARTICLEDEV.to AI·23/04/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

L'auteur a lancé un nouvel outil bêta, le « Local AI VRAM Calculator & GPU Planner », pour aider à déterminer les exigences en GPU et VRAM pour l'exécution locale des LLM. Cet outil vise à rendre visibles les compromis matériels pour différentes charges de travail et niveaux de quantification avant d'investir dans des composants.

39
NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Ryzen AI Max+ 495 (Gorgon Halo) with 192GB VRAM!

Des fuites indiquent que l'AMD Ryzen AI Max+ PRO 495 (Gorgon Halo) pourrait intégrer un APU avec 192 Go de VRAM, signalant un avenir prometteur pour l'IA locale. Malgré les coûts potentiellement élevés dus à la crise du stockage, des versions futures comme le Medusa Halo en 2027 pourraient atteindre 256 Go.

38
ARTICLEDEV.to AI·10/04/2026

i generated AI video on a GTX 1660. here's what it actually takes.

O artigo detalha o FramePack F1, uma ferramenta inovadora que permite gerar vídeos a partir de uma única imagem utilizando apenas 6 GB de VRAM, tornando-a acessível em GPUs comuns como a GTX 1660. Ele descreve a arquitetura de pipeline com cinco componentes, sublinhando a praticidade e a usabilidade local da solução para projetos reais.

23