heapsort
RESEARCH27

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

arXiv CS.CL·13 de abril de 2026

WAND es un marco que adapta modelos autoregresivos de texto a voz (AR-TTS) para operar con complejidad computacional y de memoria constante. Lo logra separando la atención en mecanismos globales y de ventana deslizante local, y utilizando destilación de conocimiento para mantener la alta fidelidad de síntesis con una reducción significativa de memoria.

Leer original