← heapsort-ai

counterfactual prompting

2 items

RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabalho argumenta que os efeitos observados do "prompting contrafactual" em LLMs não podem ser atribuídos a um fator alvo sem considerar modificações de texto que preservem o significado e estabeleçam a sensibilidade geral do modelo. A pesquisa mostra que as taxas de mudança de previsão ao alterar o gênero do paciente são indistinguíveis das taxas induzidas por simples paráfrases, sugerindo que não se pode concluir uma sensibilidade especial ao gênero do paciente.

27
RESEARCHarXiv CS.CL·06/04/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

27