RESEARCH28

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

arXiv CS.CL·4 mai 2026

NorBERTo est un nouveau modèle ModernBERT entraîné sur un corpus de 331 milliards de tokens en portugais brésilien (Aurora-PT), conçu pour le support de contexte long et des mécanismes d'attention efficaces. Il obtient les meilleurs résultats parmi les modèles d'encodeur évalués sur des tâches de similarité sémantique, d'inférence textuelle et de classification en utilisant des ensembles de données tels qu'ASSIN 2 et PLUE.

AI models BERT Portuguese NLP large language models

Lire l'original ↗