RESEARCHarXiv CS.CL·hace 26d
Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
Este estudio de replicación integral evalúa la eficacia de DExperts, una técnica de mitigación en tiempo de inferencia para reducir la toxicidad en Grandes Modelos de Lenguaje. La investigación establece mediciones de toxicidad de referencia, implementa DExperts para mitigar la toxicidad explícita y prueba el método contra el discurso de odio implícito.
28