Replication Study — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·il y a 26j

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Cette étude de réplication complète évalue l'efficacité de DExperts, une technique d'atténuation au moment de l'inférence, pour réduire la toxicité dans les grands modèles de langage. La recherche établit des mesures de toxicité de base, met en œuvre DExperts pour atténuer la toxicité explicite et teste la méthode contre les discours de haine implicites.

DExperts security Toxicity large language models