RESEARCH28
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
arXiv CS.CL·4. Mai 2026
NorBERTo ist ein neues ModernBERT-Modell, das mit einem 331 Milliarden Token umfassenden brasilianischen Portugiesisch-Korpus (Aurora-PT) trainiert wurde und für Langkontextunterstützung und effiziente Aufmerksamkeitsmechanismen entwickelt wurde. Es erzielt die besten Ergebnisse unter den evaluierten Encoder-Modellen bei Aufgaben der semantischen Ähnlichkeit, textuellen Implikation und Klassifizierung unter Verwendung von Datensätzen wie ASSIN 2 und PLUE.
Original lesen ↗