RESEARCHarXiv CS.CL·04/05/2026
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
NorBERTo é um novo modelo ModernBERT treinado com um corpus de 331 bilhões de tokens em português brasileiro (Aurora-PT), projetado para suporte a contexto longo e mecanismos de atenção eficientes. Ele alcança os melhores resultados entre os modelos codificadores avaliados em tarefas de similaridade semântica, inferência textual e classificação usando datasets como ASSIN 2 e PLUE.
28