social engineering

3 items

RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Este artículo documenta 5 estudios de caso que demuestran cómo los LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) pueden ser "jailbroken" usando tácticas de ingeniería social humana, sugiriendo que heredan vulnerabilidades psicológicas de los datos de entrenamiento. La afirmación central es que estos fallos de alineación no son exploits matemáticos, sino una consecuencia de simular rasgos humanos, lo que hace a los LLMs susceptibles a la manipulación social.

LLMs social engineering jailbreaks psychological vulnerabilities

RESEARCHarXiv CS.AI·hace 5d

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Este estudio analiza un conjunto de datos publicado de un experimento de campo descontinuado en r/ChangeMyView de Reddit, donde cuentas generadas por IA no reveladas interactuaron con usuarios en debates en vivo. Realiza un análisis de contenido estructurado que evalúa el rendimiento de la identidad, la señalización de autoridad, las estrategias de alineación y la activación de heurísticas cognitivas por parte de estos grandes modelos de lenguaje.

ethics online moderation LLMs social engineering

ARTICLEDEV.to AI·hace 28d

The AI Persona Problem: Your Next Threat Actor Doesn't Exist

El artículo analiza la aparición de personas sintéticas generadas por IA como nuevos actores de amenazas, rompiendo el paradigma de la inteligencia de amenazas centrada en el ser humano. Estas personas construyen credibilidad en comunidades de desarrolladores antes de ejecutar ataques de ingeniería social dirigidos, convirtiendo la revisión de código en una nueva superficie de ataque.

social engineering security threat-actors AI