data leakage

2 items

RESEARCHarXiv CS.LG·hace 8d

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Este artículo presenta NumLeak, un marco para medir la recuperación memorizada en modelos fundacionales utilizando benchmarks numéricos públicos. Revela que los LLMs de primer nivel recuerdan datos financieros y económicos con alta fidelidad, sugiriendo que las evaluaciones pueden estar midiendo la memorización en lugar de la habilidad fuera de muestra.

LLM memorization Foundation Models data leakage Benchmarking

ARTICLEDEV.to AI·15/4/2026

A Complete Guide to Securing AI-Generated Code: From Pre-LLM Sanitization to AI-Native SAST (2026)

Este artículo analiza los riesgos de seguridad en el uso de asistentes de codificación con IA, como GitHub Copilot, destacando dos direcciones principales: la generación de código con fallos de seguridad y la exposición de datos sensibles (claves de API, PII) cuando los desarrolladores pegan su código en herramientas de IA. Señala que la mayoría de los equipos de seguridad se centran en el primer problema, pero pocos tienen un plan para la fuga de datos del segundo.

data leakage code security Software Development Security AI coding assistants