why llama.cpp can’t combine speculative decode methods?
Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.