RESEARCHarXiv CS.CL·5/4/2026
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
NorBERTo ist ein neues ModernBERT-Modell, das mit einem 331 Milliarden Token umfassenden brasilianischen Portugiesisch-Korpus (Aurora-PT) trainiert wurde und für Langkontextunterstützung und effiziente Aufmerksamkeitsmechanismen entwickelt wurde. Es erzielt die besten Ergebnisse unter den evaluierten Encoder-Modellen bei Aufgaben der semantischen Ähnlichkeit, textuellen Implikation und Klassifizierung unter Verwendung von Datensätzen wie ASSIN 2 und PLUE.
28