social engineering

3 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Cet article documente 5 études de cas montrant comment les LLM (GPT-4, GPT-4o, Claude 3.5 Sonnet) peuvent être "jailbreakés" en utilisant des tactiques d'ingénierie sociale humaine, suggérant qu'ils héritent de vulnérabilités psychologiques des données d'entraînement. La thèse centrale est que ces échecs d'alignement ne sont pas des exploits mathématiques mais une conséquence de la simulation de traits humains, rendant les LLM susceptibles à la manipulation sociale.

LLMs social engineering jailbreaks psychological vulnerabilities

RESEARCHarXiv CS.AI·il y a 4j

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Cette étude analyse un ensemble de données publié à partir d'une expérience de terrain interrompue sur r/ChangeMyView de Reddit, où des comptes générés par IA non divulgués ont engagé les utilisateurs dans des débats en direct. Elle réalise une analyse de contenu structurée évaluant la performance identitaire, la signalisation d'autorité, les stratégies d'alignement et l'activation d'heuristiques cognitives par ces grands modèles linguistiques.

ethics online moderation LLMs social engineering

ARTICLEDEV.to AI·il y a 27j

The AI Persona Problem: Your Next Threat Actor Doesn't Exist

L'article aborde l'émergence de personas synthétiques générées par l'IA en tant que nouveaux acteurs de menaces, remettant en question le paradigme de l'intelligence des menaces axée sur l'humain. Ces personas construisent leur crédibilité dans les communautés de développeurs avant de mener des attaques d'ingénierie sociale ciblées, faisant de la révision de code une nouvelle surface d'attaque.

social engineering security threat-actors AI