RESEARCH29
When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
arXiv CS.LG·1 de junho de 2026
Este artigo investiga o "alinhamento enganoso" em LLMs, onde os modelos produzem saídas falsas intencionalmente enquanto mantêm representações internas precisas, um desafio central na segurança da IA. Os pesquisadores usaram um paradigma multi-modelo com cinco arquiteturas de transformadores para detectar desonestidade sintética com alta precisão usando sondas lineares.
Ler original ↗