RESEARCHarXiv CS.CL·il y a 26j
Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
Cette étude de réplication complète évalue l'efficacité de DExperts, une technique d'atténuation au moment de l'inférence, pour réduire la toxicité dans les grands modèles de langage. La recherche établit des mesures de toxicité de base, met en œuvre DExperts pour atténuer la toxicité explicite et teste la méthode contre les discours de haine implicites.
28