training data

5 items

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

This writeup documents 5 case studies demonstrating how LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) can be jailbroken using human social engineering tactics, suggesting they inherit psychological vulnerabilities from training data. The central claim is that these alignment failures are not mathematical exploits but rather an outcome of simulating human traits, making LLMs susceptible to social manipulation.

LLMs social engineering jailbreaks psychological vulnerabilities

ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

computer vision Image Annotation AI development Crowdsourcing

ARTICLEDEV.to AI·4/24/2026

Your AI Isn’t the Problem — Your Training Data Is (And It’s Riskier Than You Think)

Most AI teams overlook the critical risks associated with their training data, prioritizing models and benchmarks instead. This oversight can embed sensitive, proprietary, or unlicensed content, making it untraceable, undeletable, and legally perilous once integrated into AI models.

data privacy security risk management training data

RESEARCHarXiv CS.CL·4/16/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

This paper argues that the primary bottleneck in multimodal scaling for MLLMs is knowledge density in training data, rather than task format. It demonstrates that task-specific supervision like VQA adds little incremental semantic information beyond image captions, and that increasing knowledge density leads to consistent performance improvements.

multimodal AI LLMs machine learning Research Paper

ARTICLEDEV.to AI·4/15/2026

10 'Best GEO Tools' Listicles Exist. We're in Zero. Here's What That Teaches About AI Citations.

The author observes their GEO tool is absent from both "best GEO tools" listicles and AI engine recommendations, revealing that AI models primarily reference indexed articles as training data. This highlights a significant challenge for market visibility for tools not appearing in established online content.

AI citations AI Generative Engine Optimization SEO