VRAM

10 items

DOC↑ trendingReddit r/LocalLLaMA·vor 19T

Latest b9274 Addresses MTP VRAM leak

Das Update b9274 behebt ein VRAM-Leck-Problem bei MTP-Modellen (Multi-Token Prediction), bei dem GPU-zugewiesene Ressourcen in Schlaf-/Wiederaufnahmezyklen nicht freigegeben wurden. Die Lösung besteht darin, die Ressourcen des spekulativen Decoders, des Entwurfskontexts und des Entwurfsmodells in der destroy()-Funktion explizit zurückzusetzen, um Speicherüberlauf-Fehler zu vermeiden.

server MTP VRAM memory leak

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialisierung) ist eine Middleware-Schicht, die den Standard-HuggingFace-KV-Cache durch ein gestuftes Abrufsystem ersetzt und alte Daten in den System-RAM verschiebt. Dies ermöglicht 1M Token-Kontextfenster auf einer RTX 4070 (12 GB VRAM) mit nur 12 MB VRAM-Overhead und guter Leistung.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

Der Autor vergleicht die GGUF-Modelle MiniMax-M2.7 und Qwen3.5-122B-A10B für den lokalen Full Offload auf einem System mit 96 GB VRAM. Obwohl MiniMax stärker quantisiert ist, wird Qwen3.5-122B für ihre Zwecke bevorzugt, was die Leistungskompromisse bei der lokalen LLM-Inferenz unterstreicht.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

RESEARCH↑ trendingReddit r/LocalLLaMA·5/6/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

ARTICLE↑ trendingReddit r/LocalLLaMA·4/9/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

LLMs VRAM modelos de linguagem hardware

ARTICLEDEV.to AI·4/23/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

Der Autor hat ein neues Beta-Tool, den „Local AI VRAM Calculator & GPU Planner“, veröffentlicht, um die GPU- und VRAM-Anforderungen für das lokale Ausführen von LLMs zu bestimmen. Dieses Tool soll Hardware-Kompromisse für verschiedene Workloads und Quantisierungsstufen sichtbar machen, bevor man sich auf Komponenten festlegt.

LLMs GPU VRAM AI tools

NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Ryzen AI Max+ 495 (Gorgon Halo) with 192GB VRAM!

Lecks deuten darauf hin, dass der AMD Ryzen AI Max+ PRO 495 (Gorgon Halo) eine APU mit 192 GB VRAM aufweisen könnte, was eine vielversprechende Zukunft für lokale KI signalisiert. Trotz potenziell hoher Kosten aufgrund der Speicherkrise wird spekuliert, dass zukünftige Versionen wie der Medusa Halo im Jahr 2027 256 GB erreichen könnten.

Ryzen AI VRAM AMD Local AI

ARTICLEDEV.to AI·4/8/2026

99.8% of LLM Inference Power Isn't Spent on Computation

O artigo argumenta que o consumo de energia é o maior gargalo na inferência de LLMs, mais do que largura de banda ou VRAM, devido a limitações físicas. Isso se deve ao colapso da Lei de Dennard por volta de 2006, que impediu a redução automática do consumo de energia com o encolhimento dos transistores.

power consumption Bandwidth AI hardware VRAM

RESEARCHarXiv CS.AI·vor 6T

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Dieses Papier stellt AURA-Mem vor, eine neuartige rekursive Speicherarchitektur für Roboter, die eine konstante VRAM-Größe beibehält. Im Gegensatz zum KV-Cache verwendet AURA-Mem ein gelerntes Gate, das nur schreibt, wenn die aktuelle Beobachtung die nächste Aktion ändert, was es für eingebettete Agenten mit begrenzter Hardware geeignet macht.

robot policies VRAM embodied AI robotics

ARTICLEDEV.to AI·4/10/2026

i generated AI video on a GTX 1660. here's what it actually takes.

O artigo detalha o FramePack F1, uma ferramenta inovadora que permite gerar vídeos a partir de uma única imagem utilizando apenas 6 GB de VRAM, tornando-a acessível em GPUs comuns como a GTX 1660. Ele descreve a arquitetura de pipeline com cinco componentes, sublinhando a praticidade e a usabilidade local da solução para projetos reais.

GPU VRAM IA FramePack