online influence — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 15d

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Esta investigación propone un marco empírico de "red-teaming" para evaluar la capacidad de los grandes modelos de lenguaje (LLMs) de código abierto implementados localmente para apoyar campañas de influencia política, centrándose en la integridad de la información. Mide las "Ventanas Overton de LLM" y cuantifica cómo los jailbreaks en lenguaje natural amplían el rango de opiniones políticas que los modelos pueden expresar, revelando asimetrías sistemáticas en la expresividad política.

red-teaming security online influence misinformation