← heapsort-ai

Toxicity

1 items

RESEARCHarXiv CS.CL·26d atrás

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Este estudo de replicação abrangente avalia a eficácia de DExperts, uma técnica de mitigação em tempo de inferência para reduzir a toxicidade em Grandes Modelos de Linguagem. A pesquisa estabelece medições de toxicidade base, implementa DExperts para mitigar a toxicidade explícita e testa o método contra discursos de ódio implícitos.

28