Compared to What? Baselines and Metrics for Counterfactual Prompting
Ce travail soutient que les effets observés du "prompting contrefactuel" dans les LLM ne peuvent être attribués à un facteur ciblé sans tenir compte des modifications de texte préservant le sens qui établissent la sensibilité générale du modèle. La recherche montre que les taux d'inversion de prédiction lors du changement chirurgical du sexe du patient sont statistiquement indiscernables des taux induits par de simples paraphrases, suggérant qu'une sensibilité particulière au sexe du patient ne peut être conclue.