Autoregressive Text-to-Speech — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·4/13/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND führt ein Framework ein, das vortrainierte autoregressive Text-zu-Sprache (AR-TTS)-Modelle an eine konstante Rechen- und Speicherkomplexität anpasst. Dies gelingt durch die Trennung der Attention in globale und lokale Sliding-Window-Mechanismen, den Einsatz von Curriculum Learning und die Nutzung von Wissensdestillation, um eine hochwertige Sprachsynthese bei erheblicher Reduzierung des KV-Cache-Speichers zu gewährleisten.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency