RESEARCH27

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

arXiv CS.CL·11 mai 2026

VITA-QinYu est le premier modèle de langage parlé expressif de bout en bout (E2E) prenant en charge la génération de jeux de rôle et de chant. Il adopte un paradigme hybride parole-texte avec des jetons audio multi-codebooks et a été entraîné sur 15,8K heures de données, surpassant les autres SLM en expressivité.

role-playing expressive AI speech synthesis spoken language model singing generation

Lire l'original ↗