RESEARCHarXiv CS.CL·5/11/2026
VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
VITA-QinYu ist das erste expressive End-to-End (E2E) Sprachmodell, das sowohl Rollenspiel- als auch Gesangsgenerierung unterstützt. Es verwendet ein hybrides Sprach-Text-Paradigma mit Multi-Codebook-Audio-Tokens und wurde mit 15.8K Stunden Daten trainiert, wodurch es andere SLMs in Ausdrucksfähigkeit übertrifft.
27