expressive AI

2 items

RESEARCHarXiv CS.CL·5/11/2026

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

VITA-QinYu ist das erste expressive End-to-End (E2E) Sprachmodell, das sowohl Rollenspiel- als auch Gesangsgenerierung unterstützt. Es verwendet ein hybrides Sprach-Text-Paradigma mit Multi-Codebook-Audio-Tokens und wurde mit 15.8K Stunden Daten trainiert, wodurch es andere SLMs in Ausdrucksfähigkeit übertrifft.

role-playing expressive AI speech synthesis spoken language model

NEWSGoogle DeepMind Blog·4/15/2026

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Die Gemini 3.1 Flash TTS führt ein neues Audiomodell mit granularen Audio-Tags ein. Dies ermöglicht eine präzise Steuerung der KI-Sprache, was zu einer ausdrucksvolleren Audioerzeugung führt.

expressive AI Gemini TTS AI speech

Gemini 3.1 Flash TTS: the next generation of expressive AI speech