singing generation — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·11/05/2026

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

VITA-QinYu é o primeiro modelo de linguagem falada expressivo de ponta a ponta (E2E) que suporta a geração de role-playing e canto. Ele utiliza um paradigma híbrido de fala-texto com tokens de áudio de vários dicionários e foi treinado com 15,8 mil horas de dados, superando outros SLMs em expressividade.

role-playing expressive AI speech synthesis spoken language model