RESEARCHarXiv CS.CL·4/8/2026
Multilingual Language Models Encode Script Over Linguistic Structure
Este estudo investiga como modelos de linguagem multilíngues, como Llama-3.2-1B e Gemma-2-2B, organizam suas representações internas para idiomas diversos. Os pesquisadores descobriram que essas representações são fortemente condicionadas pela ortografia, e não pela identidade linguística abstrata, com a romanização gerando representações distintas.
27