RESEARCH28

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

arXiv CS.CL·25 de mayo de 2026

Esta investigación propone un marco empírico de "red-teaming" para evaluar la capacidad de los grandes modelos de lenguaje (LLMs) de código abierto implementados localmente para apoyar campañas de influencia política, centrándose en la integridad de la información. Mide las "Ventanas Overton de LLM" y cuantifica cómo los jailbreaks en lenguaje natural amplían el rango de opiniones políticas que los modelos pueden expresar, revelando asimetrías sistemáticas en la expresividad política.

red-teaming security online influence misinformation LLM

Leer original ↗