← heapsort-ai

Quantisation

1 items

RESEARCHarXiv CS.CL·10/04/2026

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yor\`ub\'a

O artigo investiga como as unidades discretas de fala (DSUs), derivadas de modelos SSL, codificam o tom lexical, descobrindo que elas o fazem de forma menos confiável do que a estrutura segmental. Embora as representações latentes do SSL codifiquem o tom, a quantização tende a priorizar a estrutura fonética, um problema demonstrado em mandarim e iorubá que persiste com vários métodos.

27