counterfactual prompting

2 items

RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·6/4/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

counterfactual prompting computational linguistic sycophancy large language models