RESEARCH30
Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning
arXiv CS.CL·5 de junho de 2026
Este artigo propõe um objetivo de pré-treinamento híbrido para codificadores de texto, combinando uma perda de previsão de espaço latente estilo JEPA com o objetivo padrão de Masked Language Modelling (MLM). A abordagem visa promover representações ancoradas em estruturas semânticas mais profundas, em vez de apenas identidades de token de superfície, resultando em embeddings mais uniformes.
Ler original ↗