MTP

2 items

DOC↑ trendingReddit r/LocalLLaMA·il y a 19j

Latest b9274 Addresses MTP VRAM leak

La mise à jour b9274 résout un problème de fuite de VRAM dans les modèles MTP (Multi-Token Prediction), où les ressources allouées au GPU n'étaient pas libérées lors des cycles de veille/reprise. La correction implique la réinitialisation explicite des ressources du décodeur spéculatif, du contexte de brouillon et du modèle de brouillon dans la fonction destroy() afin d'éviter les erreurs de manque de mémoire.

server MTP VRAM memory leak

NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

Le support MTP de llama.cpp est maintenant en version bêta, avec un support initial pour Qwen3.5 MTP et une fusion potentielle prochaine. Cette amélioration, ainsi que le support tensor-parallel en maturation, devrait combler les écarts de performance entre llama.cpp et vLLM, notamment en termes de vitesse de génération de jetons.

AI models Qwen3.5 MTP llama.cpp