RESEARCH28
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
arXiv CS.CL·4 de maio de 2026
NorBERTo é um novo modelo ModernBERT treinado com um corpus de 331 bilhões de tokens em português brasileiro (Aurora-PT), projetado para suporte a contexto longo e mecanismos de atenção eficientes. Ele alcança os melhores resultados entre os modelos codificadores avaliados em tarefas de similaridade semântica, inferência textual e classificação usando datasets como ASSIN 2 e PLUE.
Ler original ↗