RESEARCH29
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
arXiv CS.CL·27 de maio de 2026
Este artigo apresenta uma pesquisa unificada sobre a Exposição de Dados de Pré-treinamento (PDE) em Large Language Models (LLMs), abordando contaminação de dados e inferência de membresia. A pesquisa formaliza PDE, revisa métodos de ataque e defesa, e discute desafios futuros para garantir a integridade da avaliação e proteger a privacidade.
Ler original ↗