← heapsort-ai

data leakage

2 items

RESEARCHarXiv CS.LG·8d atrás

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Este artigo apresenta o NumLeak, uma estrutura para medir a recuperação de informações memorizadas por modelos de fundação a partir de benchmarks numéricos públicos. Ele revela que LLMs de ponta recordam dados financeiros e econômicos com alta fidelidade, sugerindo que as avaliações podem estar medindo a memorização em vez de habilidades genuínas.

29
ARTICLEDEV.to AI·15/04/2026

A Complete Guide to Securing AI-Generated Code: From Pre-LLM Sanitization to AI-Native SAST (2026)

O artigo discute os riscos de segurança no uso de assistentes de codificação com IA, como GitHub Copilot, destacando duas direções principais: a geração de código com falhas de segurança e a exposição de dados sensíveis (API keys, PII) quando desenvolvedores colam seu código em ferramentas de IA. Ele aponta que a maioria das equipes de segurança foca no primeiro problema, mas poucos têm um plano para a fuga de dados do segundo.

28