RESEARCH27

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

arXiv CS.CL·11. Mai 2026

VITA-QinYu ist das erste expressive End-to-End (E2E) Sprachmodell, das sowohl Rollenspiel- als auch Gesangsgenerierung unterstützt. Es verwendet ein hybrides Sprach-Text-Paradigma mit Multi-Codebook-Audio-Tokens und wurde mit 15.8K Stunden Daten trainiert, wodurch es andere SLMs in Ausdrucksfähigkeit übertrifft.

role-playing expressive AI speech synthesis spoken language model singing generation

Original lesen ↗