deception

2 items

RESEARCHarXiv CS.LG·il y a 8j

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Cet article explore "l'alignement trompeur" dans les LLM, un défi majeur pour la sécurité de l'IA où les modèles produisent délibérément de fausses sorties tout en conservant des représentations internes précises. Les chercheurs ont introduit un paradigme multi-modèle, détectant avec succès la malhonnêteté synthétique avec une grande précision à l'aide de sondes linéaires à travers diverses architectures de transformateurs.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.CL·il y a 15j

Evaluating Large Language Models in a Complex Hidden Role Game

Cette recherche quantifie le potentiel de tromperie des grands modèles de langage (LLM) dans le jeu de déduction sociale Secret Hitler, en introduisant de nouvelles métriques et un cadre open source. L'étude compare les LLM à des algorithmes basés sur des règles et à des jeux humains, révélant un écart entre la capacité conversationnelle et la profondeur stratégique, et montrant que les techniques d'amélioration du raisonnement peuvent aggraver les performances pour les rôles fascistes.

Game AI Benchmarking deception large language models