RESEARCH27

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

arXiv CS.CL·13. April 2026

WAND führt ein Framework ein, das vortrainierte autoregressive Text-zu-Sprache (AR-TTS)-Modelle an eine konstante Rechen- und Speicherkomplexität anpasst. Dies gelingt durch die Trennung der Attention in globale und lokale Sliding-Window-Mechanismen, den Einsatz von Curriculum Learning und die Nutzung von Wissensdestillation, um eine hochwertige Sprachsynthese bei erheblicher Reduzierung des KV-Cache-Speichers zu gewährleisten.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency Memory Reduction

Original lesen ↗