why llama.cpp can’t combine speculative decode methods?
Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.