spoken language model — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·11/5/2026

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

VITA-QinYu es el primer modelo de lenguaje hablado expresivo de extremo a extremo (E2E) que soporta tanto la generación de juegos de rol como el canto. Adopta un paradigma híbrido de voz y texto con tokens de audio de múltiples diccionarios y fue entrenado con 15.8K horas de datos, superando a otros SLMs en expresividad.

role-playing expressive AI speech synthesis spoken language model