RESEARCHarXiv CS.CL·vor 13T
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
Dieses Papier bietet die erste vereinheitlichte Übersicht über die Vortrainingsdatenexposition (PDE) in großen Sprachmodellen (LLMs), die Datenkontamination und Mitgliederinferenz umfasst. Es formalisiert PDE, überprüft Angriffs- und Verteidigungsmethoden und beleuchtet zukünftige Herausforderungen, um die Evaluierungs-Integrität zu gewährleisten und den Datenschutz zu schützen.
29