RESEARCHarXiv CS.CL·vor 15T
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
Diese Forschung schlägt einen empirischen Red-Teaming-Rahmen vor, um die Fähigkeit lokal eingesetzter Open-Source-Sprachmodelle (LLMs) zur Unterstützung politischer Einflusskampagnen zu bewerten, wobei der Fokus auf Informationsintegrität liegt. Sie misst „LLM-Overton-Fenster“ und quantifiziert, wie einfache Natural-Language-Jailbreaks die Bandbreite politischer Meinungen erweitern, die Modelle zuverlässig ausdrücken können, und deckt systematische Asymmetrien in der politischen Ausdrucksfähigkeit auf.
28