Latest b9274 Addresses MTP VRAM leak
La actualización b9274 aborda un problema de fuga de VRAM en los modelos MTP (Multi-Token Prediction), donde los recursos asignados a la GPU no se liberaban en los ciclos de suspensión/reanudación. La solución implica restablecer explícitamente los recursos del decodificador especulativo, el contexto de borrador y el modelo de borrador en la función destroy() para evitar errores de falta de memoria.
