RESEARCH28

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

arXiv CS.CL·25 mai 2026

Cette recherche propose un cadre de "red-teaming" empirique pour évaluer la capacité des grands modèles de langage (LLM) open-source déployés localement à soutenir des campagnes d'influence politique, en se concentrant sur l'intégrité de l'information. Elle mesure les "fenêtres d'Overton des LLM" et quantifie comment les "jailbreaks" en langage naturel élargissent l'éventail des opinions politiques que les modèles peuvent exprimer, révélant des asymétries systématiques dans l'expressivité politique.

red-teaming security online influence misinformation LLM

Lire l'original ↗