← heapsort-ai

training data

5 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Este artigo documenta 5 estudos de caso que demonstram como LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) podem ser "jailbroken" usando táticas de engenharia social humana, sugerindo que herdam vulnerabilidades psicológicas dos dados de treino. A tese central é que essas falhas de alinhamento não são exploits matemáticos, mas sim uma consequência da simulação de traços humanos, tornando os LLMs suscetíveis à manipulação social.

44
ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

40
RESEARCHarXiv CS.CL·16/04/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Este artigo argumenta que o principal gargalo na escala de modelos multimodais (MLLMs) é a densidade de conhecimento nos dados de treinamento, não o formato da tarefa. Mostra que a supervisão específica da tarefa, como VQA, contribui pouco além das legendas, e que aumentar a densidade de conhecimento leva a melhorias consistentes de desempenho.

27