RESEARCH27

Compared to What? Baselines and Metrics for Counterfactual Prompting

arXiv CS.CL·5 de mayo de 2026

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

counterfactual prompting model robustness AI bias natural language processing LLM evaluation

Leer original ↗