← heapsort-ai

online influence

1 items

RESEARCHarXiv CS.CL·il y a 16j

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Cette recherche propose un cadre de "red-teaming" empirique pour évaluer la capacité des grands modèles de langage (LLM) open-source déployés localement à soutenir des campagnes d'influence politique, en se concentrant sur l'intégrité de l'information. Elle mesure les "fenêtres d'Overton des LLM" et quantifie comment les "jailbreaks" en langage naturel élargissent l'éventail des opinions politiques que les modèles peuvent exprimer, révélant des asymétries systématiques dans l'expressivité politique.

28