RESEARCH28

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

arXiv CS.CL·25. Mai 2026

Diese Forschung schlägt einen empirischen Red-Teaming-Rahmen vor, um die Fähigkeit lokal eingesetzter Open-Source-Sprachmodelle (LLMs) zur Unterstützung politischer Einflusskampagnen zu bewerten, wobei der Fokus auf Informationsintegrität liegt. Sie misst „LLM-Overton-Fenster“ und quantifiziert, wie einfache Natural-Language-Jailbreaks die Bandbreite politischer Meinungen erweitern, die Modelle zuverlässig ausdrücken können, und deckt systematische Asymmetrien in der politischen Ausdrucksfähigkeit auf.

red-teaming security online influence misinformation LLM

Original lesen ↗