When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
Cet article explore "l'alignement trompeur" dans les LLM, un défi majeur pour la sécurité de l'IA où les modèles produisent délibérément de fausses sorties tout en conservant des représentations internes précises. Les chercheurs ont introduit un paradigme multi-modèle, détectant avec succès la malhonnêteté synthétique avec une grande précision à l'aide de sondes linéaires à travers diverses architectures de transformateurs.