RESEARCH29

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

arXiv CS.LG·1 de junho de 2026

Este artigo investiga o "alinhamento enganoso" em LLMs, onde os modelos produzem saídas falsas intencionalmente enquanto mantêm representações internas precisas, um desafio central na segurança da IA. Os pesquisadores usaram um paradigma multi-modelo com cinco arquiteturas de transformadores para detectar desonestidade sintética com alta precisão usando sondas lineares.

LLMs machine learning deception AI safety Transformers

Ler original ↗