RESEARCHarXiv CS.CL·13/04/2026
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
WAND é uma estrutura que adapta modelos autoregressivos de texto para fala (AR-TTS) para operarem com complexidade computacional e de memória constante. Isso é alcançado através de atenção dividida (global e de janela deslizante) e destilação de conhecimento, preservando a qualidade enquanto reduz drasticamente o uso de memória.
27