← heapsort-ai

membership inference

1 items

RESEARCHarXiv CS.CL·il y a 14j

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Cet article propose la première étude unifiée sur l'Exposition des Données de Pré-entraînement (PDE) dans les Grands Modèles Linguistiques (LLMs), couvrant la contamination des données et l'inférence d'appartenance. Il formalise le PDE, examine les méthodes d'attaque et de défense, et souligne les défis futurs pour assurer l'intégrité de l'évaluation et protéger la confidentialité.

29