RESEARCHarXiv CS.CL·04/05/2026
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
NorBERTo est un nouveau modèle ModernBERT entraîné sur un corpus de 331 milliards de tokens en portugais brésilien (Aurora-PT), conçu pour le support de contexte long et des mécanismes d'attention efficaces. Il obtient les meilleurs résultats parmi les modèles d'encodeur évalués sur des tâches de similarité sémantique, d'inférence textuelle et de classification en utilisant des ensembles de données tels qu'ASSIN 2 et PLUE.
28