MTP

2 items

DOC↑ trendingReddit r/LocalLLaMA·vor 19T

Latest b9274 Addresses MTP VRAM leak

Das Update b9274 behebt ein VRAM-Leck-Problem bei MTP-Modellen (Multi-Token Prediction), bei dem GPU-zugewiesene Ressourcen in Schlaf-/Wiederaufnahmezyklen nicht freigegeben wurden. Die Lösung besteht darin, die Ressourcen des spekulativen Decoders, des Entwurfskontexts und des Entwurfsmodells in der destroy()-Funktion explizit zurückzusetzen, um Speicherüberlauf-Fehler zu vermeiden.

server MTP VRAM memory leak

NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Llama.cpp MTP support now in beta!

Die MTP-Unterstützung für llama.cpp befindet sich jetzt in der Beta-Phase, mit anfänglicher Unterstützung für Qwen3.5 MTP und dem Potenzial für eine baldige Zusammenführung. Diese Verbesserung, zusammen mit der Reifung der Tensor-Parallel-Unterstützung, wird voraussichtlich die Leistungsunterschiede zwischen llama.cpp und vLLM, insbesondere bei der Token-Generierungsgeschwindigkeit, beseitigen.

AI models Qwen3.5 MTP llama.cpp