RESEARCH27
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
arXiv CS.CL·13. April 2026
WAND führt ein Framework ein, das vortrainierte autoregressive Text-zu-Sprache (AR-TTS)-Modelle an eine konstante Rechen- und Speicherkomplexität anpasst. Dies gelingt durch die Trennung der Attention in globale und lokale Sliding-Window-Mechanismen, den Einsatz von Curriculum Learning und die Nutzung von Wissensdestillation, um eine hochwertige Sprachsynthese bei erheblicher Reduzierung des KV-Cache-Speichers zu gewährleisten.
Knowledge DistillationAutoregressive Text-to-SpeechAttention MechanismComputational EfficiencyMemory Reduction
Original lesen ↗