RESEARCH27

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

arXiv CS.CL·11 de mayo de 2026

VITA-QinYu es el primer modelo de lenguaje hablado expresivo de extremo a extremo (E2E) que soporta tanto la generación de juegos de rol como el canto. Adopta un paradigma híbrido de voz y texto con tokens de audio de múltiples diccionarios y fue entrenado con 15.8K horas de datos, superando a otros SLMs en expresividad.

role-playing expressive AI speech synthesis spoken language model singing generation

Leer original ↗