heapsort
RESEARCH27

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

arXiv CS.CL·14 mai 2026

Cet article propose d'évaluer l'équité des LLM par le comportement conversationnel in-situ plutôt que par des tests standardisés. Il introduit le cadre MAC-Fairness pour l'analyse comportementale dans le dialogue multi-agents, révélant la non-fiabilité des approches traditionnelles.

Lire l'original