← heapsort-ai

BERT

5 items

RESEARCHarXiv CS.CL·5/4/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo ist ein neues ModernBERT-Modell, das mit einem 331 Milliarden Token umfassenden brasilianischen Portugiesisch-Korpus (Aurora-PT) trainiert wurde und für Langkontextunterstützung und effiziente Aufmerksamkeitsmechanismen entwickelt wurde. Es erzielt die besten Ergebnisse unter den evaluierten Encoder-Modellen bei Aufgaben der semantischen Ähnlichkeit, textuellen Implikation und Klassifizierung unter Verwendung von Datensätzen wie ASSIN 2 und PLUE.

28
RESEARCHarXiv CS.CL·4/13/2026

A Representation-Level Assessment of Bias Mitigation in Foundation Models

Diese Forschung untersucht, wie Bias-Minderung den Einbettungsraum von Encoder-Only- und Decoder-Only-Grundlagenmodellen wie BERT und Llama2 umgestaltet. Die Ergebnisse zeigen, dass Bias-Minderung Geschlechter-Berufs-Disparitäten im Einbettungsraum reduziert, was zu neutraleren internen Repräsentationen führt und die Einbettungsanalyse als wertvolles Validierungswerkzeug zur Entzerrung bestätigt.

27
DOCDEV.to AI·vor 20T

92. BERT: The Model That Reads in Both Directions

BERT unterscheidet sich von GPT durch seine bidirektionale Lesefähigkeit, bei der maskierte Wörter anstelle von sequentiellen Wörtern vorhergesagt werden. Dieses umfassende Kontextverständnis machte es dominant bei NLP-Benchmarks und zu einem Eckpfeiler für Verständnisaufgaben. Der Inhalt beschreibt die Vortrainingsmechanismen und Feinabstimmungstechniken von BERT.

27