RESEARCH28
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
arXiv CS.CL·4 de mayo de 2026
NorBERTo es un nuevo modelo ModernBERT entrenado con un corpus de 331 mil millones de tokens en portugués brasileño (Aurora-PT), diseñado para soporte de contexto largo y mecanismos de atención eficientes. Logra los mejores resultados entre los modelos codificadores evaluados en tareas de similitud semántica, inferencia textual y clasificación utilizando conjuntos de datos como ASSIN 2 y PLUE.
Leer original ↗