deception

2 items

RESEARCHarXiv CS.LG·8d atrás

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este artigo investiga o "alinhamento enganoso" em LLMs, onde os modelos produzem saídas falsas intencionalmente enquanto mantêm representações internas precisas, um desafio central na segurança da IA. Os pesquisadores usaram um paradigma multi-modelo com cinco arquiteturas de transformadores para detectar desonestidade sintética com alta precisão usando sondas lineares.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.CL·15d atrás

Evaluating Large Language Models in a Complex Hidden Role Game

Esta pesquisa quantifica o potencial enganoso de Large Language Models (LLMs) no jogo de dedução social Secret Hitler, introduzindo métricas e um framework open-source. O estudo compara LLMs com algoritmos baseados em regras e jogos humanos, identificando uma lacuna entre a capacidade conversacional e a profundidade estratégica, e mostrando que técnicas de aprimoramento de raciocínio podem piorar o desempenho.

Game AI Benchmarking deception large language models