VRAM

10 items

DOC↑ trendingReddit r/LocalLLaMA·il y a 19j

Latest b9274 Addresses MTP VRAM leak

La mise à jour b9274 résout un problème de fuite de VRAM dans les modèles MTP (Multi-Token Prediction), où les ressources allouées au GPU n'étaient pas libérées lors des cycles de veille/reprise. La correction implique la réinitialisation explicite des ressources du décodeur spéculatif, du contexte de brouillon et du modèle de brouillon dans la fonction destroy() afin d'éviter les erreurs de manque de mémoire.

server MTP VRAM memory leak

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

L'auteur compare les modèles GGUF MiniMax-M2.7 et Qwen3.5-122B-A10B pour le déchargement complet local sur un système avec 96 Go de VRAM. Pour ses besoins, le Qwen3.5-122B est préféré, même si MiniMax est plus quantifié, soulignant les compromis de performance pour l'inférence LLM locale.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

RESEARCH↑ trendingReddit r/LocalLLaMA·06/05/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Ce contenu compare la qualité de différentes quantifications du modèle Qwen 3.6 27B à l'aide d'un test de jeu d'échecs personnalisé afin de trouver l'option optimale pour les configurations avec 16 Go de VRAM. Il évalue la capacité des modèles à suivre les états du plateau et à générer des images SVG précises.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

ARTICLE↑ trendingReddit r/LocalLLaMA·09/04/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

LLMs VRAM modelos de linguagem hardware

ARTICLEDEV.to AI·23/04/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

L'auteur a lancé un nouvel outil bêta, le « Local AI VRAM Calculator & GPU Planner », pour aider à déterminer les exigences en GPU et VRAM pour l'exécution locale des LLM. Cet outil vise à rendre visibles les compromis matériels pour différentes charges de travail et niveaux de quantification avant d'investir dans des composants.

LLMs GPU VRAM AI tools

NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Ryzen AI Max+ 495 (Gorgon Halo) with 192GB VRAM!

Des fuites indiquent que l'AMD Ryzen AI Max+ PRO 495 (Gorgon Halo) pourrait intégrer un APU avec 192 Go de VRAM, signalant un avenir prometteur pour l'IA locale. Malgré les coûts potentiellement élevés dus à la crise du stockage, des versions futures comme le Medusa Halo en 2027 pourraient atteindre 256 Go.

Ryzen AI VRAM AMD Local AI

ARTICLEDEV.to AI·08/04/2026

99.8% of LLM Inference Power Isn't Spent on Computation

O artigo argumenta que o consumo de energia é o maior gargalo na inferência de LLMs, mais do que largura de banda ou VRAM, devido a limitações físicas. Isso se deve ao colapso da Lei de Dennard por volta de 2006, que impediu a redução automática do consumo de energia com o encolhimento dos transistores.

power consumption Bandwidth AI hardware VRAM

RESEARCHarXiv CS.AI·il y a 6j

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Cet article introduit AURA-Mem, une nouvelle architecture de mémoire récurrente pour robots conçue pour maintenir une taille de VRAM constante. Contrairement au KV-cache, AURA-Mem utilise une porte apprise qui n'écrit que lorsque l'observation actuelle modifie la prochaine action, la rendant adaptée aux agents embarqués avec un matériel limité.

robot policies VRAM embodied AI robotics

ARTICLEDEV.to AI·10/04/2026

i generated AI video on a GTX 1660. here's what it actually takes.

O artigo detalha o FramePack F1, uma ferramenta inovadora que permite gerar vídeos a partir de uma única imagem utilizando apenas 6 GB de VRAM, tornando-a acessível em GPUs comuns como a GTX 1660. Ele descreve a arquitetura de pipeline com cinco componentes, sublinhando a praticidade e a usabilidade local da solução para projetos reais.

GPU VRAM IA FramePack