heapsort
DOC↑ trending47

Latest b9274 Addresses MTP VRAM leak

Reddit r/LocalLLaMA·21 de mayo de 2026

La actualización b9274 aborda un problema de fuga de VRAM en los modelos MTP (Multi-Token Prediction), donde los recursos asignados a la GPU no se liberaban en los ciclos de suspensión/reanudación. La solución implica restablecer explícitamente los recursos del decodificador especulativo, el contexto de borrador y el modelo de borrador en la función destroy() para evitar errores de falta de memoria.

Leer original