Latest b9274 Addresses MTP VRAM leak
A atualização b9274 aborda um problema de vazamento de VRAM em modelos MTP (Multi-Token Prediction), onde os recursos da GPU não eram liberados nos ciclos de suspensão/retomada. A correção envolve a redefinição explícita dos recursos do decodificador especulativo, contexto de rascunho e modelo de rascunho na função destroy() para evitar erros de falta de memória.
