RESEARCHarXiv CS.CL·27d atrás
In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
Este artigo propõe a avaliação da justiça em LLMs através de comportamento conversacional in-situ, em vez de testes padronizados. Ele introduz o framework MAC-Fairness para análise comportamental em diálogo multi-agente, revelando a falta de confiabilidade das abordagens tradicionais.
27