RESEARCHarXiv CS.CL·vor 26T
In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
Dieser Artikel schlägt vor, die Fairness von LLMs durch In-situ-Konversationsverhalten anstelle von standardisierten Tests zu bewerten. Er stellt das MAC-Fairness-Framework für die Verhaltensanalyse im Multi-Agenten-Dialog vor und zeigt die Unzuverlässigkeit traditioneller Ansätze auf.
27