deception

2 items

RESEARCHarXiv CS.LG·hace 8d

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este estudio aborda el "alineamiento engañoso" en LLMs, un desafío crítico para la seguridad de la IA, donde los modelos generan resultados falsos intencionadamente a pesar de tener representaciones internas precisas. Utilizando un paradigma multi-modelo con varias arquitecturas de transformadores, se detectó deshonestidad sintética con alta precisión mediante el uso de sondas lineales.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.CL·hace 15d

Evaluating Large Language Models in a Complex Hidden Role Game

Esta investigación cuantifica el potencial engañoso de los Grandes Modelos de Lenguaje (LLMs) en el juego de deducción social Secret Hitler, introduciendo métricas novedosas y un marco de código abierto. El estudio compara los LLMs con algoritmos basados en reglas y juegos humanos, revelando una brecha entre la capacidad conversacional y la profundidad estratégica, y mostrando que las técnicas de mejora del razonamiento pueden empeorar el rendimiento para los roles fascistas.

Game AI Benchmarking deception large language models