RESEARCH29
When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
arXiv CS.LG·1 de junio de 2026
Este estudio aborda el "alineamiento engañoso" en LLMs, un desafío crítico para la seguridad de la IA, donde los modelos generan resultados falsos intencionadamente a pesar de tener representaciones internas precisas. Utilizando un paradigma multi-modelo con varias arquitecturas de transformadores, se detectó deshonestidad sintética con alta precisión mediante el uso de sondas lineales.
Leer original ↗