RESEARCH28

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

arXiv CS.CL·15 de mayo de 2026

Este estudio de replicación integral evalúa la eficacia de DExperts, una técnica de mitigación en tiempo de inferencia para reducir la toxicidad en Grandes Modelos de Lenguaje. La investigación establece mediciones de toxicidad de referencia, implementa DExperts para mitigar la toxicidad explícita y prueba el método contra el discurso de odio implícito.

DExperts security Toxicity large language models Replication Study

Leer original ↗