speech synthesis

7 items

RESEARCHDEV.to AI·vor 2T

DurIAN: Duration Informed Attention Network For Multimodal Synthesis

DurIAN ist ein Dauer-informiertes Aufmerksamkeitsnetzwerk für multimodale Synthese. Diese Arbeit konzentriert sich auf die Architektur eines KI-Modells, das entwickelt wurde, um kohärente und synchronisierte Ausgaben über mehrere Modalitäten hinweg zu generieren.

attention networks multimodal AI deep learning speech synthesis

RESEARCHDEV.to AI·4/25/2026

JSUT corpus: free large-scale Japanese speech corpus for end-to-end speechsynthesis

Der JSUT-Korpus ist ein kostenloser, großer japanischer Sprachdatensatz, der für die End-to-End-Sprachsyntheseforschung entwickelt wurde. Er bietet wertvolle Ressourcen für die Entwicklung fortschrittlicher KI-Modelle in der Sprachtechnologie für die japanische Sprache.

japanese language speech synthesis machine learning natural language processing

DOCDEV.to AI·5/3/2026

🐱 Kitten TTS — A Lightweight Text-to-Speech Model with Live GUI

Kitten TTS ist ein leichtes Text-zu-Sprache-Modell. Es verfügt über eine Live-Grafikbenutzeroberfläche.

AI models speech synthesis TTS GUI

RESEARCHarXiv CS.CL·vor 29T

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

VITA-QinYu ist das erste expressive End-to-End (E2E) Sprachmodell, das sowohl Rollenspiel- als auch Gesangsgenerierung unterstützt. Es verwendet ein hybrides Sprach-Text-Paradigma mit Multi-Codebook-Audio-Tokens und wurde mit 15.8K Stunden Daten trainiert, wodurch es andere SLMs in Ausdrucksfähigkeit übertrifft.

role-playing expressive AI speech synthesis spoken language model

RESEARCHarXiv CS.CL·vor 12T

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

Dieses Papier schlägt neue Techniken zur feingranularen Sprechstilkontrolle in promptbasierten Text-zu-Sprache (TTS)-Modellen vor. Es behandelt die Stilinterpolation zwischen Äußerungen und Stilübergänge innerhalb einer einzigen Äußerung, wodurch Einschränkungen der globalen Stilanwendung überwunden werden.

AI models prompt engineering speech synthesis machine learning

RESEARCHarXiv CS.CL·vor 12T

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Diese Forschung befasst sich mit der Stabilitäts-Expressivitäts-Lücke in gesprochenen Sprachmodellen (SLMs) für ressourcenarme Sprachen, verursacht durch die intensive Nutzung synthetischer Daten. Während synthetische Daten die phonetische Genauigkeit verbessern, beeinträchtigen sie die prosodische Ausdrucksfähigkeit, ein Phänomen, das als Synthetische Erosion bezeichnet wird. Das Papier stellt Selbstausrichtungsrahmen vor, um die Ausdrucksfähigkeit wiederherzustellen.

synthetic data speech synthesis spoken language models Low-resource languages

ARTICLEDEV.to AI·4/15/2026

Aisha AI: Complete Resource Guide — 100 Official Links for Uzbekistan's Leading AI Platform

Aisha AI, Zentralasiens am schnellsten wachsende KI-Plattform, spezialisiert sich auf usbekische Sprachsynthese, Spracherkennung, Chatbots und Sprachagenten. Der Leitfaden bietet 100 offizielle Links zu Produkten, Dokumentationen und Anwendungen, die die digitale Transformation in der Region vorantreiben.

Uzbekistan AI speech synthesis Central Asia AI Speech-to-Text