ARTICLE↑ trending43

why llama.cpp can’t combine speculative decode methods?

Reddit r/LocalLLaMA·7 mai 2026

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

Optimization LLMs llama.cpp Qwen3.6 Speculative Decoding

Lire l'original ↗