RESEARCH28
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
arXiv CS.CL·25 de maio de 2026
Esta pesquisa propõe um framework empírico de red-teaming para avaliar a capacidade de modelos de linguagem grandes (LLMs) de código aberto implantados localmente em apoiar campanhas de influência política, focando na integridade da informação. O estudo mede as "Janelas Overton de LLM" e quantifica como jailbreaks de linguagem natural expandem o leque de opiniões políticas que os modelos podem expressar, revelando assimetrias sistemáticas na expressividade política.
Ler original ↗