membership inference — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 13T

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Dieses Papier bietet die erste vereinheitlichte Übersicht über die Vortrainingsdatenexposition (PDE) in großen Sprachmodellen (LLMs), die Datenkontamination und Mitgliederinferenz umfasst. Es formalisiert PDE, überprüft Angriffs- und Verteidigungsmethoden und beleuchtet zukünftige Herausforderungen, um die Evaluierungs-Integrität zu gewährleisten und den Datenschutz zu schützen.

LLMs membership inference data privacy security