training data

5 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Este artigo documenta 5 estudos de caso que demonstram como LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) podem ser "jailbroken" usando táticas de engenharia social humana, sugerindo que herdam vulnerabilidades psicológicas dos dados de treino. A tese central é que essas falhas de alinhamento não são exploits matemáticos, mas sim uma consequência da simulação de traços humanos, tornando os LLMs suscetíveis à manipulação social.

LLMs social engineering jailbreaks psychological vulnerabilities

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

computer vision Image Annotation AI development Crowdsourcing

ARTICLEDEV.to AI·24/04/2026

Your AI Isn’t the Problem — Your Training Data Is (And It’s Riskier Than You Think)

A maioria das equipes de IA negligencia os riscos críticos associados aos seus dados de treinamento, priorizando modelos e benchmarks. Essa supervisão pode incorporar conteúdo sensível, proprietário ou não licenciado, tornando-o irrastreável, indelével e legalmente perigoso uma vez integrado nos modelos de IA.

data privacy security risk management training data

RESEARCHarXiv CS.CL·16/04/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Este artigo argumenta que o principal gargalo na escala de modelos multimodais (MLLMs) é a densidade de conhecimento nos dados de treinamento, não o formato da tarefa. Mostra que a supervisão específica da tarefa, como VQA, contribui pouco além das legendas, e que aumentar a densidade de conhecimento leva a melhorias consistentes de desempenho.

multimodal AI LLMs machine learning Research Paper

ARTICLEDEV.to AI·15/04/2026

10 'Best GEO Tools' Listicles Exist. We're in Zero. Here's What That Teaches About AI Citations.

O autor percebe que sua ferramenta GEO não é mencionada em listas de "melhores ferramentas GEO" nem por IA, demonstrando que modelos de IA referenciam artigos indexados como dados de treinamento. Isso sublinha um desafio de visibilidade para ferramentas ausentes do conteúdo online estabelecido.

AI citations AI Generative Engine Optimization SEO