← heapsort-ai

BERT

5 items

RESEARCHarXiv CS.CL·4/5/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo es un nuevo modelo ModernBERT entrenado con un corpus de 331 mil millones de tokens en portugués brasileño (Aurora-PT), diseñado para soporte de contexto largo y mecanismos de atención eficientes. Logra los mejores resultados entre los modelos codificadores evaluados en tareas de similitud semántica, inferencia textual y clasificación utilizando conjuntos de datos como ASSIN 2 y PLUE.

28
RESEARCHarXiv CS.CL·13/4/2026

A Representation-Level Assessment of Bias Mitigation in Foundation Models

Esta investigación examina cómo la mitigación de sesgos remodela el espacio de incrustación de modelos de fundación, como BERT y Llama2. Los hallazgos muestran que la mitigación de sesgos reduce las disparidades de género-ocupación en el espacio de incrustación, llevando a representaciones internas más neutrales y validando el análisis de incrustación como una herramienta útil para métodos de desvío.

27
DOCDEV.to AI·hace 20d

92. BERT: The Model That Reads in Both Directions

BERT se diferencia de GPT por su capacidad de lectura bidireccional, prediciendo palabras enmascaradas en lugar de secuenciales. Esta comprensión contextual completa lo convirtió en dominante en los benchmarks de PNL y una piedra angular para las tareas de comprensión. El contenido detalla los mecanismos de preentrenamiento y las técnicas de ajuste fino de BERT.

27