ARTICLE↑ trending43
why llama.cpp can’t combine speculative decode methods?
Reddit r/LocalLLaMA·7 de maio de 2026
Um usuário está investigando por que métodos de decodificação especulativa como MTP e N-grama não podem ser combinados simultaneamente em llama.cpp, observando que o N-grama oferece melhorias significativas para codificação. Ele busca entender se é uma limitação fundamental ou de implementação, descobrindo que outros já fizeram a mesma pergunta.
Ler original ↗