RESEARCH28

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

arXiv CS.CL·25 de maio de 2026

Esta pesquisa propõe um framework empírico de red-teaming para avaliar a capacidade de modelos de linguagem grandes (LLMs) de código aberto implantados localmente em apoiar campanhas de influência política, focando na integridade da informação. O estudo mede as "Janelas Overton de LLM" e quantifica como jailbreaks de linguagem natural expandem o leque de opiniões políticas que os modelos podem expressar, revelando assimetrias sistemáticas na expressividade política.

red-teaming security online influence misinformation LLM

Ler original ↗