DExperts — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 26d

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Este estudio de replicación integral evalúa la eficacia de DExperts, una técnica de mitigación en tiempo de inferencia para reducir la toxicidad en Grandes Modelos de Lenguaje. La investigación establece mediciones de toxicidad de referencia, implementa DExperts para mitigar la toxicidad explícita y prueba el método contra el discurso de odio implícito.

DExperts security Toxicity large language models