RESEARCH28
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
arXiv CS.CL·25. Mai 2026
Diese Forschung schlägt einen empirischen Red-Teaming-Rahmen vor, um die Fähigkeit lokal eingesetzter Open-Source-Sprachmodelle (LLMs) zur Unterstützung politischer Einflusskampagnen zu bewerten, wobei der Fokus auf Informationsintegrität liegt. Sie misst „LLM-Overton-Fenster“ und quantifiziert, wie einfache Natural-Language-Jailbreaks die Bandbreite politischer Meinungen erweitern, die Modelle zuverlässig ausdrücken können, und deckt systematische Asymmetrien in der politischen Ausdrucksfähigkeit auf.
Original lesen ↗