why llama.cpp can’t combine speculative decode methods?
Um usuário está investigando por que métodos de decodificação especulativa como MTP e N-grama não podem ser combinados simultaneamente em llama.cpp, observando que o N-grama oferece melhorias significativas para codificação. Ele busca entender se é uma limitação fundamental ou de implementação, descobrindo que outros já fizeram a mesma pergunta.