RESEARCH27

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

arXiv CS.CL·14. Mai 2026

Dieser Artikel schlägt vor, die Fairness von LLMs durch In-situ-Konversationsverhalten anstelle von standardisierten Tests zu bewerten. Er stellt das MAC-Fairness-Framework für die Verhaltensanalyse im Multi-Agenten-Dialog vor und zeigt die Unzuverlässigkeit traditioneller Ansätze auf.

LLM fairness Research Methods multi-agent systems AI evaluation Conversational AI

Original lesen ↗