RESEARCH29
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
arXiv CS.CL·27 mai 2026
Cet article propose la première étude unifiée sur l'Exposition des Données de Pré-entraînement (PDE) dans les Grands Modèles Linguistiques (LLMs), couvrant la contamination des données et l'inférence d'appartenance. Il formalise le PDE, examine les méthodes d'attaque et de défense, et souligne les défis futurs pour assurer l'intégrité de l'évaluation et protéger la confidentialité.
Lire l'original ↗