RESEARCHarXiv CS.CL·hace 15d
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
Esta investigación propone un marco empírico de "red-teaming" para evaluar la capacidad de los grandes modelos de lenguaje (LLMs) de código abierto implementados localmente para apoyar campañas de influencia política, centrándose en la integridad de la información. Mide las "Ventanas Overton de LLM" y cuantifica cómo los jailbreaks en lenguaje natural amplían el rango de opiniones políticas que los modelos pueden expresar, revelando asimetrías sistemáticas en la expresividad política.
28