RESEARCHarXiv CS.CL·11/5/2026
VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
VITA-QinYu es el primer modelo de lenguaje hablado expresivo de extremo a extremo (E2E) que soporta tanto la generación de juegos de rol como el canto. Adopta un paradigma híbrido de voz y texto con tokens de audio de múltiples diccionarios y fue entrenado con 15.8K horas de datos, superando a otros SLMs en expresividad.
27