Autoregressive Text-to-Speech — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·13/04/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND est un framework qui adapte les modèles AR-TTS pré-entraînés pour fonctionner avec une complexité computationnelle et de mémoire constante. Il sépare l'attention en mécanismes globaux et de fenêtre glissante locale, utilisant la distillation de connaissances pour maintenir une synthèse de haute fidélité tout en réduisant considérablement la mémoire cache KV.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency