RESEARCH28
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
arXiv CS.CL·25 mai 2026
Cette recherche propose un cadre de "red-teaming" empirique pour évaluer la capacité des grands modèles de langage (LLM) open-source déployés localement à soutenir des campagnes d'influence politique, en se concentrant sur l'intégrité de l'information. Elle mesure les "fenêtres d'Overton des LLM" et quantifie comment les "jailbreaks" en langage naturel élargissent l'éventail des opinions politiques que les modèles peuvent exprimer, révélant des asymétries systématiques dans l'expressivité politique.
Lire l'original ↗