RESEARCH29

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

arXiv CS.CL·27. Mai 2026

Dieses Papier bietet die erste vereinheitlichte Übersicht über die Vortrainingsdatenexposition (PDE) in großen Sprachmodellen (LLMs), die Datenkontamination und Mitgliederinferenz umfasst. Es formalisiert PDE, überprüft Angriffs- und Verteidigungsmethoden und beleuchtet zukünftige Herausforderungen, um die Evaluierungs-Integrität zu gewährleisten und den Datenschutz zu schützen.

LLMs membership inference data privacy security AI ethics

Original lesen ↗