← heapsort-ai

Text-to-Speech

37 items

ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]

Der Autor kritisiert die mangelnde Diskussion über Textnormalisierung in Streaming-Text-to-Speech-Modellen, wo Fehler bei der Aussprache von Daten, URLs und anderen grundlegenden Elementen auftreten. Er verweist auf einen Benchmark, der kommerzielle TTS-Modelle hinsichtlich dieser spezifischen Herausforderungen vergleicht.

42
CASEDEV.to AI·4/20/2026

Building Real-Time Voice AI with AWS Bedrock: Lessons from Creating an Ethiopian AI Tutor

Der Artikel beschreibt die Herausforderungen beim Aufbau von Echtzeit-Sprach-KI, wobei der Fokus auf der Latenz der Verarbeitungspipeline liegt. Er hebt hervor, wie die Streaming-Fähigkeiten von AWS Bedrock entscheidend waren, um Verzögerungen zu reduzieren und natürliche Gespräche beim Erstellen eines amharischen KI-Tutors für äthiopische Studenten zu ermöglichen.

28
DOCDEV.to AI·vor 25T

A Practical AI Voice Workflow for Creator Tools and Product Demos

Dieser Inhalt beschreibt einen praktischen Workflow zur Integration von KI-Sprachwerkzeugen in Content-Pipelines, der über einfache Tests hinausgeht, um Herausforderungen wie die Konsistenz über mehrere Skripte und Formate hinweg zu bewältigen. Es wird betont, mit einem "Voice Brief" zu beginnen, um Sprecher, Zielgruppe und emotionalen Ton festzulegen, bevor Audio generiert wird.

27
RESEARCHarXiv CS.CL·4/13/2026

Neural networks for Text-to-Speech evaluation

Diese Forschung stellt neuartige neuronale Modelle zur Automatisierung der Qualitätsbewertung von Text-to-Speech (TTS)-Systemen vor, die die Einschränkungen traditioneller menschlicher subjektiver Beurteilungen überwinden. Sie schlägt NeuralSBS für relative Bewertungen und Verbesserungen an MOSNet und WhisperBert für absolute Bewertungen vor, mit dem Ziel, Expertenurteile effizient zu approximieren.

27
RESEARCHarXiv CS.CL·vor 12T

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

Dieses Papier schlägt neue Techniken zur feingranularen Sprechstilkontrolle in promptbasierten Text-zu-Sprache (TTS)-Modellen vor. Es behandelt die Stilinterpolation zwischen Äußerungen und Stilübergänge innerhalb einer einzigen Äußerung, wodurch Einschränkungen der globalen Stilanwendung überwunden werden.

27