heapsort
RESEARCH27

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

arXiv CS.LG·8. April 2026

Este trabalho propõe o Cactus, um novo método para acelerar a decodificação auto-regressiva de LLMs através de amostragem especulativa com aceitação restrita. Ele resolve as limitações de abordagens anteriores, garantindo uma divergência controlada da distribuição do verificador por meio de uma formulação de otimização restrita.

Original lesen