RESEARCH27

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

arXiv CS.CL·14 de maio de 2026

Este artigo propõe a avaliação da justiça em LLMs através de comportamento conversacional in-situ, em vez de testes padronizados. Ele introduz o framework MAC-Fairness para análise comportamental em diálogo multi-agente, revelando a falta de confiabilidade das abordagens tradicionais.

LLM fairness Research Methods multi-agent systems AI evaluation conversational AI

Ler original ↗