Portuguese — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·04/05/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo é um novo modelo ModernBERT treinado com um corpus de 331 bilhões de tokens em português brasileiro (Aurora-PT), projetado para suporte a contexto longo e mecanismos de atenção eficientes. Ele alcança os melhores resultados entre os modelos codificadores avaliados em tarefas de similaridade semântica, inferência textual e classificação usando datasets como ASSIN 2 e PLUE.

AI models BERT Portuguese NLP