ARTICLE↑ trending43
why llama.cpp can’t combine speculative decode methods?
Reddit r/LocalLLaMA·7 mai 2026
Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.
Lire l'original ↗