RESEARCH27

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

arXiv CS.CL·13 de abril de 2026

WAND é uma estrutura que adapta modelos autoregressivos de texto para fala (AR-TTS) para operarem com complexidade computacional e de memória constante. Isso é alcançado através de atenção dividida (global e de janela deslizante) e destilação de conhecimento, preservando a qualidade enquanto reduz drasticamente o uso de memória.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency Memory Reduction

Ler original ↗