RESEARCH27
In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
arXiv CS.CL·14 de mayo de 2026
Este artículo propone evaluar la imparcialidad de los LLM mediante el comportamiento conversacional in situ, en lugar de pruebas estandarizadas. Introduce el marco MAC-Fairness para el análisis del comportamiento en diálogos multiagente, revelando la falta de fiabilidad de los enfoques tradicionales.
Leer original ↗