RESEARCH29
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
arXiv CS.CL·27 de mayo de 2026
Este artículo presenta la primera encuesta unificada sobre la Exposición de Datos de Preentrenamiento (PDE) en Large Language Models (LLMs), cubriendo la contaminación de datos y la inferencia de membresía. Formaliza PDE, revisa métodos de ataque y defensa, y destaca desafíos futuros para garantizar la integridad de la evaluación y proteger la privacidad.
Leer original ↗