RESEARCHarXiv CS.CL·13/4/2026
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
WAND es un marco que adapta modelos autoregresivos de texto a voz (AR-TTS) para operar con complejidad computacional y de memoria constante. Lo logra separando la atención en mecanismos globales y de ventana deslizante local, y utilizando destilación de conocimiento para mantener la alta fidelidad de síntesis con una reducción significativa de memoria.
27