RESEARCH27
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
arXiv CS.CL·13 de abril de 2026
WAND é uma estrutura que adapta modelos autoregressivos de texto para fala (AR-TTS) para operarem com complexidade computacional e de memória constante. Isso é alcançado através de atenção dividida (global e de janela deslizante) e destilação de conhecimento, preservando a qualidade enquanto reduz drasticamente o uso de memória.
Knowledge DistillationAutoregressive Text-to-SpeechAttention MechanismComputational EfficiencyMemory Reduction
Ler original ↗