← heapsort-ai

data leakage

2 items

RESEARCHarXiv CS.LG·il y a 9j

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Cet article introduit NumLeak, un cadre de mesure de la mémorisation chez les modèles de fondation à partir de benchmarks numériques publics. Il révèle que les LLM de premier plan rappellent des données financières et économiques avec une grande fidélité, suggérant que l'évaluation pourrait mesurer la mémorisation plutôt que des compétences réelles.

29
ARTICLEDEV.to AI·15/04/2026

A Complete Guide to Securing AI-Generated Code: From Pre-LLM Sanitization to AI-Native SAST (2026)

Cet article analyse les risques de sécurité liés à l'utilisation d'assistants de codage IA, tels que GitHub Copilot, en soulignant deux directions principales : la génération de code avec des failles de sécurité et l'exposition de données sensibles (clés API, PII) lorsque les développeurs collent leur code dans ces outils. Il note que la plupart des équipes de sécurité se concentrent sur le premier problème, mais peu ont un plan pour la fuite de données du second.

28