RESEARCHarXiv CS.CL·11/05/2026
VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
VITA-QinYu é o primeiro modelo de linguagem falada expressivo de ponta a ponta (E2E) que suporta a geração de role-playing e canto. Ele utiliza um paradigma híbrido de fala-texto com tokens de áudio de vários dicionários e foi treinado com 15,8 mil horas de dados, superando outros SLMs em expressividade.
27