← heapsort-ai

Portuguese

1 items

RESEARCHarXiv CS.CL·04/05/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo é um novo modelo ModernBERT treinado com um corpus de 331 bilhões de tokens em português brasileiro (Aurora-PT), projetado para suporte a contexto longo e mecanismos de atenção eficientes. Ele alcança os melhores resultados entre os modelos codificadores avaliados em tarefas de similaridade semântica, inferência textual e classificação usando datasets como ASSIN 2 e PLUE.

28