← heapsort-ai

Text-to-Speech

37 items

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]

L'auteur met en lumière le manque de discussion sur la normalisation de texte dans les modèles de synthèse vocale en streaming, où des erreurs surviennent lors de la prononciation de dates, d'URL et d'autres éléments. Il mentionne un benchmark comparant des modèles TTS commerciaux sur ces défis spécifiques.

42
CASEDEV.to AI·20/04/2026

Building Real-Time Voice AI with AWS Bedrock: Lessons from Creating an Ethiopian AI Tutor

L'article détaille les défis de la création d'une IA vocale en temps réel, se concentrant sur la latence du pipeline de traitement. Il souligne comment les capacités de streaming d'AWS Bedrock ont été cruciales pour réduire les délais et permettre des conversations naturelles lors de la création d'un tuteur IA amharique pour les étudiants éthiopiens.

28
ARTICLEDEV.to AI·15/04/2026

How to prompt Gemini 3.1's new text to speech model

Gemini 3.1 Flash TTS est un nouveau modèle de synthèse vocale qui permet aux utilisateurs d'obtenir des performances audio précises via des invites. Cet article propose des conseils sur la façon de guider le modèle, en utilisant le contexte comme les profils audio, les descriptions de scènes et les balises pour contrôler la livraison.

27
DOCDEV.to AI·il y a 25j

A Practical AI Voice Workflow for Creator Tools and Product Demos

Ce contenu décrit un flux de travail pratique pour intégrer les outils vocaux d'IA dans les pipelines de contenu, allant au-delà des tests simples pour relever des défis tels que la cohérence entre plusieurs scripts et formats. Il met l'accent sur le démarrage avec un "brief vocal" pour définir l'orateur, le public et la température émotionnelle avant de générer tout audio.

27
RESEARCHarXiv CS.CL·13/04/2026

Neural networks for Text-to-Speech evaluation

Cette recherche introduit de nouveaux modèles neuronaux pour automatiser l'évaluation de la qualité des systèmes Text-to-Speech (TTS), contournant les limites des évaluations humaines subjectives. Elle propose NeuralSBS pour les évaluations relatives et des améliorations à MOSNet et WhisperBert pour les évaluations absolues, visant à approcher les jugements d'experts.

27