RESEARCH27

Compared to What? Baselines and Metrics for Counterfactual Prompting

arXiv CS.CL·5 de maio de 2026

Este trabalho argumenta que os efeitos observados do "prompting contrafactual" em LLMs não podem ser atribuídos a um fator alvo sem considerar modificações de texto que preservem o significado e estabeleçam a sensibilidade geral do modelo. A pesquisa mostra que as taxas de mudança de previsão ao alterar o gênero do paciente são indistinguíveis das taxas induzidas por simples paráfrases, sugerindo que não se pode concluir uma sensibilidade especial ao gênero do paciente.

counterfactual prompting model robustness AI bias natural language processing LLM evaluation

Ler original ↗