SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding
SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.