RESEARCH27
VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
arXiv CS.CL·11 de mayo de 2026
VITA-QinYu es el primer modelo de lenguaje hablado expresivo de extremo a extremo (E2E) que soporta tanto la generación de juegos de rol como el canto. Adopta un paradigma híbrido de voz y texto con tokens de audio de múltiples diccionarios y fue entrenado con 15.8K horas de datos, superando a otros SLMs en expresividad.
Leer original ↗