I can't believe text normalization is so underdiscussed in streaming text-to-speech [D]
L'auteur met en lumière le manque de discussion sur la normalisation de texte dans les modèles de synthèse vocale en streaming, où des erreurs surviennent lors de la prononciation de dates, d'URL et d'autres éléments. Il mentionne un benchmark comparant des modèles TTS commerciaux sur ces défis spécifiques.
