RESEARCH28

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

arXiv CS.CL·15 de maio de 2026

Este estudo de replicação abrangente avalia a eficácia de DExperts, uma técnica de mitigação em tempo de inferência para reduzir a toxicidade em Grandes Modelos de Linguagem. A pesquisa estabelece medições de toxicidade base, implementa DExperts para mitigar a toxicidade explícita e testa o método contra discursos de ódio implícitos.

DExperts security Toxicity large language models Replication Study

Ler original ↗