Compared to What? Baselines and Metrics for Counterfactual Prompting
Este trabalho argumenta que os efeitos observados do "prompting contrafactual" em LLMs não podem ser atribuídos a um fator alvo sem considerar modificações de texto que preservem o significado e estabeleçam a sensibilidade geral do modelo. A pesquisa mostra que as taxas de mudança de previsão ao alterar o gênero do paciente são indistinguíveis das taxas induzidas por simples paráfrases, sugerindo que não se pode concluir uma sensibilidade especial ao gênero do paciente.