RESEARCH28
Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
arXiv CS.CL·15 de maio de 2026
Este estudo de replicação abrangente avalia a eficácia de DExperts, uma técnica de mitigação em tempo de inferência para reduzir a toxicidade em Grandes Modelos de Linguagem. A pesquisa estabelece medições de toxicidade base, implementa DExperts para mitigar a toxicidade explícita e testa o método contra discursos de ódio implícitos.
Ler original ↗