RESEARCHarXiv CS.CL·14d atrás
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
Este artigo apresenta uma pesquisa unificada sobre a Exposição de Dados de Pré-treinamento (PDE) em Large Language Models (LLMs), abordando contaminação de dados e inferência de membresia. A pesquisa formaliza PDE, revisa métodos de ataque e defesa, e discute desafios futuros para garantir a integridade da avaliação e proteger a privacidade.
29