← heapsort-ai

auto-regressive decoding

1 items

RESEARCHarXiv CS.LG·8/4/2026

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Este trabalho propõe o Cactus, um novo método para acelerar a decodificação auto-regressiva de LLMs através de amostragem especulativa com aceitação restrita. Ele resolve as limitações de abordagens anteriores, garantindo uma divergência controlada da distribuição do verificador por meio de uma formulação de otimização restrita.

27