RESEARCH28
Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
arXiv CS.CL·15 de mayo de 2026
Este estudio de replicación integral evalúa la eficacia de DExperts, una técnica de mitigación en tiempo de inferencia para reducir la toxicidad en Grandes Modelos de Lenguaje. La investigación establece mediciones de toxicidad de referencia, implementa DExperts para mitigar la toxicidad explícita y prueba el método contra el discurso de odio implícito.
Leer original ↗