RESEARCH28

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

arXiv CS.CL·4 de maio de 2026

NorBERTo é um novo modelo ModernBERT treinado com um corpus de 331 bilhões de tokens em português brasileiro (Aurora-PT), projetado para suporte a contexto longo e mecanismos de atenção eficientes. Ele alcança os melhores resultados entre os modelos codificadores avaliados em tarefas de similaridade semântica, inferência textual e classificação usando datasets como ASSIN 2 e PLUE.

AI models BERT Portuguese NLP large language models

Ler original ↗