RESEARCH27

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yor\`ub\'a

arXiv CS.CL·10 de abril de 2026

O artigo investiga como as unidades discretas de fala (DSUs), derivadas de modelos SSL, codificam o tom lexical, descobrindo que elas o fazem de forma menos confiável do que a estrutura segmental. Embora as representações latentes do SSL codifiquem o tom, a quantização tende a priorizar a estrutura fonética, um problema demonstrado em mandarim e iorubá que persiste com vários métodos.

Self-Supervised LearningSpeech ProcessingDiscrete Speech UnitsLexical ToneQuantisation

Ler original ↗