RESEARCH27

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

arXiv CS.CL·14 de mayo de 2026

Este artículo propone evaluar la imparcialidad de los LLM mediante el comportamiento conversacional in situ, en lugar de pruebas estandarizadas. Introduce el marco MAC-Fairness para el análisis del comportamiento en diálogos multiagente, revelando la falta de fiabilidad de los enfoques tradicionales.

LLM fairness Research Methods multi-agent systems AI evaluation Conversational AI

Leer original ↗