RESEARCH27
In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
arXiv CS.CL·14 mai 2026
Cet article propose d'évaluer l'équité des LLM par le comportement conversationnel in-situ plutôt que par des tests standardisés. Il introduit le cadre MAC-Fairness pour l'analyse comportementale dans le dialogue multi-agents, révélant la non-fiabilité des approches traditionnelles.
Lire l'original ↗