RESEARCH28

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

arXiv CS.CL·4 de mayo de 2026

NorBERTo es un nuevo modelo ModernBERT entrenado con un corpus de 331 mil millones de tokens en portugués brasileño (Aurora-PT), diseñado para soporte de contexto largo y mecanismos de atención eficientes. Logra los mejores resultados entre los modelos codificadores evaluados en tareas de similitud semántica, inferencia textual y clasificación utilizando conjuntos de datos como ASSIN 2 y PLUE.

AI models BERT Portuguese NLP large language models

Leer original ↗