RESEARCH29

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

arXiv CS.CL·27 mai 2026

Cet article propose la première étude unifiée sur l'Exposition des Données de Pré-entraînement (PDE) dans les Grands Modèles Linguistiques (LLMs), couvrant la contamination des données et l'inférence d'appartenance. Il formalise le PDE, examine les méthodes d'attaque et de défense, et souligne les défis futurs pour assurer l'intégrité de l'évaluation et protéger la confidentialité.

LLMs membership inference data privacy security AI ethics

Lire l'original ↗