RESEARCH27
Compared to What? Baselines and Metrics for Counterfactual Prompting
arXiv CS.CL·5. Mai 2026
Diese Arbeit argumentiert, dass die beobachteten Effekte von "kontrafaktuellem Prompting" in LLMs nicht einem gezielten Faktor zugeschrieben werden können, ohne bedeutungserhaltende Textmodifikationen zu berücksichtigen, die die allgemeine Modellsensitivität festlegen. Die Forschung zeigt, dass die Vorhersageumkehrraten beim chirurgischen Ändern des Patientengeschlechts statistisch nicht von den durch einfaches Paraphrasieren der Eingaben induzierten Raten unterscheidbar sind, was darauf hindeutet, dass keine besondere Sensitivität gegenüber dem Patientengeschlecht geschlossen werden kann.
Original lesen ↗