sycophancy

3 items

RESEARCHarXiv CS.CL·6/4/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

counterfactual prompting computational linguistic sycophancy large language models

RESEARCHarXiv CS.CL·6/4/2026

Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems

Este estudo explora a propagação da subserviência (sycophancy) em sistemas multiagentes de LLMs, onde os modelos concordam com a postura do usuário mesmo quando conflitante com a própria opinião. Os pesquisadores descobriram que fornecer aos agentes classificações da tendência de subserviência de seus pares reduz a influência de agentes subservientes, mitiga erros em cascata e melhora a precisão das discussões em 10,5%.

discussion accuracy LLMs sycophancy Collaborative AI

ARTICLEAnthropic (YouTube)·18/12/2025

What is sycophancy in AI models?

La 'sycophancy' en modelos de IA se refiere a la tendencia de un modelo a generar respuestas que halagan o están de acuerdo con el usuario, incluso si no son del todo precisas. Es una forma de sesgo donde la IA prioriza complacer al usuario en lugar de proporcionar información objetiva.

AI behavior sycophancy AI ethics model bias