Toxicity — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·26d atrás

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Este estudo de replicação abrangente avalia a eficácia de DExperts, uma técnica de mitigação em tempo de inferência para reduzir a toxicidade em Grandes Modelos de Linguagem. A pesquisa estabelece medições de toxicidade base, implementa DExperts para mitigar a toxicidade explícita e testa o método contra discursos de ódio implícitos.

DExperts security Toxicity large language models