online influence — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·15d atrás

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Esta pesquisa propõe um framework empírico de red-teaming para avaliar a capacidade de modelos de linguagem grandes (LLMs) de código aberto implantados localmente em apoiar campanhas de influência política, focando na integridade da informação. O estudo mede as "Janelas Overton de LLM" e quantifica como jailbreaks de linguagem natural expandem o leque de opiniões políticas que os modelos podem expressar, revelando assimetrias sistemáticas na expressividade política.

red-teaming security online influence misinformation