RESEARCH27
Multilingual Language Models Encode Script Over Linguistic Structure
arXiv CS.CL·8 de abril de 2026
Este estudo investiga como modelos de linguagem multilíngues, como Llama-3.2-1B e Gemma-2-2B, organizam suas representações internas para idiomas diversos. Os pesquisadores descobriram que essas representações são fortemente condicionadas pela ortografia, e não pela identidade linguística abstrata, com a romanização gerando representações distintas.
Representações de LinguagemModelos de Linguagem MultilínguesLLaMAOrtografiaEstrutura Linguística
Ler original ↗