heapsort
RESEARCH30

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

arXiv CS.CL·5 juin 2026

Cet article propose un objectif de pré-entraînement hybride pour les encodeurs de texte, combinant une perte de prédiction d'espace latent de type JEPA avec un objectif standard de modélisation de langage masqué (MLM). Cette approche vise à encourager des représentations ancrées dans une structure sémantique plus profonde plutôt que dans la simple identité des tokens de surface, démontrant des embeddings significativement plus uniformes.

Lire l'original