RESEARCHarXiv CS.CL·il y a 27j
In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
Cet article propose d'évaluer l'équité des LLM par le comportement conversationnel in-situ plutôt que par des tests standardisés. Il introduit le cadre MAC-Fairness pour l'analyse comportementale dans le dialogue multi-agents, révélant la non-fiabilité des approches traditionnelles.
27