← heapsort-ai

BERT

5 items

RESEARCHarXiv CS.CL·04/05/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo est un nouveau modèle ModernBERT entraîné sur un corpus de 331 milliards de tokens en portugais brésilien (Aurora-PT), conçu pour le support de contexte long et des mécanismes d'attention efficaces. Il obtient les meilleurs résultats parmi les modèles d'encodeur évalués sur des tâches de similarité sémantique, d'inférence textuelle et de classification en utilisant des ensembles de données tels qu'ASSIN 2 et PLUE.

28
RESEARCHarXiv CS.CL·13/04/2026

A Representation-Level Assessment of Bias Mitigation in Foundation Models

Cette recherche examine comment l'atténuation des biais remodèle l'espace d'intégration des modèles de fondation, tels que BERT et Llama2. Les résultats montrent que l'atténuation des biais réduit les disparités genre-profession dans l'espace d'intégration, conduisant à des représentations internes plus neutres et validant l'analyse d'intégration comme un outil précieux pour les méthodes de débiaisage.

27
DOCDEV.to AI·il y a 20j

92. BERT: The Model That Reads in Both Directions

BERT se distingue de GPT par sa capacité de lecture bidirectionnelle, prédisant des mots masqués plutôt que séquentiels. Cette compréhension contextuelle complète l'a rendu dominant dans les benchmarks PNL et une pierre angulaire pour les tâches de compréhension. Le contenu détaille les mécanismes de pré-entraînement et les techniques de réglage fin de BERT.

27