MTP

2 items

DOC↑ trendingReddit r/LocalLLaMA·19d atrás

Latest b9274 Addresses MTP VRAM leak

A atualização b9274 aborda um problema de vazamento de VRAM em modelos MTP (Multi-Token Prediction), onde os recursos da GPU não eram liberados nos ciclos de suspensão/retomada. A correção envolve a redefinição explícita dos recursos do decodificador especulativo, contexto de rascunho e modelo de rascunho na função destroy() para evitar erros de falta de memória.

server MTP VRAM memory leak

NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

O suporte MTP para llama.cpp está agora em fase beta, com suporte inicial para Qwen3.5 MTP e potencial para fusão em breve. Espera-se que esta melhoria, juntamente com o suporte tensor-parallel, elimine as lacunas de desempenho entre llama.cpp e vLLM, especialmente na velocidade de geração de tokens.

AI models Qwen3.5 MTP llama.cpp