LLM fairness — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 26d

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Este artículo propone evaluar la imparcialidad de los LLM mediante el comportamiento conversacional in situ, en lugar de pruebas estandarizadas. Introduce el marco MAC-Fairness para el análisis del comportamiento en diálogos multiagente, revelando la falta de fiabilidad de los enfoques tradicionales.

LLM fairness Research Methods multi-agent systems AI evaluation