RESEARCH27

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

arXiv CS.CL·11 de maio de 2026

VITA-QinYu é o primeiro modelo de linguagem falada expressivo de ponta a ponta (E2E) que suporta a geração de role-playing e canto. Ele utiliza um paradigma híbrido de fala-texto com tokens de áudio de vários dicionários e foi treinado com 15,8 mil horas de dados, superando outros SLMs em expressividade.

role-playing expressive AI speech synthesis spoken language model singing generation

Ler original ↗