RESEARCH27
Investigating Counterfactual Unfairness in LLMs towards Identities through Humor
arXiv CS.CL·22. April 2026
Diese Arbeit untersucht kontrafaktische Ungerechtigkeit in LLMs, indem sie beobachtet, wie sich ihre Reaktionen auf Humor ändern, wenn Sprecher- und Adressatenidentitäten getauscht werden. Experimente zeigen konsistente relationale Ungleichheiten: Witze von privilegierten Sprechern werden häufiger abgelehnt oder als bösartig eingestuft.
Original lesen ↗