RESEARCHarXiv CS.CL·15d atrás
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
Esta pesquisa propõe um framework empírico de red-teaming para avaliar a capacidade de modelos de linguagem grandes (LLMs) de código aberto implantados localmente em apoiar campanhas de influência política, focando na integridade da informação. O estudo mede as "Janelas Overton de LLM" e quantifica como jailbreaks de linguagem natural expandem o leque de opiniões políticas que os modelos podem expressar, revelando assimetrias sistemáticas na expressividade política.
28