MTP

2 items

DOC↑ trendingReddit r/LocalLLaMA·hace 19d

Latest b9274 Addresses MTP VRAM leak

La actualización b9274 aborda un problema de fuga de VRAM en los modelos MTP (Multi-Token Prediction), donde los recursos asignados a la GPU no se liberaban en los ciclos de suspensión/reanudación. La solución implica restablecer explícitamente los recursos del decodificador especulativo, el contexto de borrador y el modelo de borrador en la función destroy() para evitar errores de falta de memoria.

server MTP VRAM memory leak

NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Llama.cpp MTP support now in beta!

El soporte MTP para llama.cpp ya está en fase beta, con soporte inicial para Qwen3.5 MTP y potencial de fusión en breve. Se espera que esta mejora, junto con el soporte tensor-parallel, elimine las brechas de rendimiento entre llama.cpp y vLLM, especialmente en la velocidad de generación de tokens.

AI models Qwen3.5 MTP llama.cpp