RESEARCH29

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

arXiv CS.CL·27 de mayo de 2026

Este artículo presenta la primera encuesta unificada sobre la Exposición de Datos de Preentrenamiento (PDE) en Large Language Models (LLMs), cubriendo la contaminación de datos y la inferencia de membresía. Formaliza PDE, revisa métodos de ataque y defensa, y destaca desafíos futuros para garantizar la integridad de la evaluación y proteger la privacidad.

LLMs membership inference data privacy security AI ethics

Leer original ↗