← heapsort-ai

VRAM

10 items

DOC↑ trendingReddit r/LocalLLaMA·vor 19T

Latest b9274 Addresses MTP VRAM leak

Das Update b9274 behebt ein VRAM-Leck-Problem bei MTP-Modellen (Multi-Token Prediction), bei dem GPU-zugewiesene Ressourcen in Schlaf-/Wiederaufnahmezyklen nicht freigegeben wurden. Die Lösung besteht darin, die Ressourcen des spekulativen Decoders, des Entwurfskontexts und des Entwurfsmodells in der destroy()-Funktion explizit zurückzusetzen, um Speicherüberlauf-Fehler zu vermeiden.

47
ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialisierung) ist eine Middleware-Schicht, die den Standard-HuggingFace-KV-Cache durch ein gestuftes Abrufsystem ersetzt und alte Daten in den System-RAM verschiebt. Dies ermöglicht 1M Token-Kontextfenster auf einer RTX 4070 (12 GB VRAM) mit nur 12 MB VRAM-Overhead und guter Leistung.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

Der Autor vergleicht die GGUF-Modelle MiniMax-M2.7 und Qwen3.5-122B-A10B für den lokalen Full Offload auf einem System mit 96 GB VRAM. Obwohl MiniMax stärker quantisiert ist, wird Qwen3.5-122B für ihre Zwecke bevorzugt, was die Leistungskompromisse bei der lokalen LLM-Inferenz unterstreicht.

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/6/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/9/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

41
ARTICLEDEV.to AI·4/23/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

Der Autor hat ein neues Beta-Tool, den „Local AI VRAM Calculator & GPU Planner“, veröffentlicht, um die GPU- und VRAM-Anforderungen für das lokale Ausführen von LLMs zu bestimmen. Dieses Tool soll Hardware-Kompromisse für verschiedene Workloads und Quantisierungsstufen sichtbar machen, bevor man sich auf Komponenten festlegt.

39
NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Ryzen AI Max+ 495 (Gorgon Halo) with 192GB VRAM!

Lecks deuten darauf hin, dass der AMD Ryzen AI Max+ PRO 495 (Gorgon Halo) eine APU mit 192 GB VRAM aufweisen könnte, was eine vielversprechende Zukunft für lokale KI signalisiert. Trotz potenziell hoher Kosten aufgrund der Speicherkrise wird spekuliert, dass zukünftige Versionen wie der Medusa Halo im Jahr 2027 256 GB erreichen könnten.

38
ARTICLEDEV.to AI·4/10/2026

i generated AI video on a GTX 1660. here's what it actually takes.

O artigo detalha o FramePack F1, uma ferramenta inovadora que permite gerar vídeos a partir de uma única imagem utilizando apenas 6 GB de VRAM, tornando-a acessível em GPUs comuns como a GTX 1660. Ele descreve a arquitetura de pipeline com cinco componentes, sublinhando a praticidade e a usabilidade local da solução para projetos reais.

23