RESEARCH29

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

arXiv CS.CL·27 de maio de 2026

Este artigo apresenta uma pesquisa unificada sobre a Exposição de Dados de Pré-treinamento (PDE) em Large Language Models (LLMs), abordando contaminação de dados e inferência de membresia. A pesquisa formaliza PDE, revisa métodos de ataque e defesa, e discute desafios futuros para garantir a integridade da avaliação e proteger a privacidade.

LLMs membership inference data privacy security AI ethics

Ler original ↗