RESEARCH27
Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yor\`ub\'a
arXiv CS.CL·10 de abril de 2026
O artigo investiga como as unidades discretas de fala (DSUs), derivadas de modelos SSL, codificam o tom lexical, descobrindo que elas o fazem de forma menos confiável do que a estrutura segmental. Embora as representações latentes do SSL codifiquem o tom, a quantização tende a priorizar a estrutura fonética, um problema demonstrado em mandarim e iorubá que persiste com vários métodos.
Self-Supervised LearningSpeech ProcessingDiscrete Speech UnitsLexical ToneQuantisation
Ler original ↗