RESEARCHarXiv CS.CL·vor 26T
Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
Diese umfassende Replikationsstudie bewertet die Wirksamkeit von DExperts, einer Inferenzzeit-Minderungstechnik, zur Reduzierung der Toxizität in großen Sprachmodellen. Die Forschung ermittelt Basiswerte für Toxizität, implementiert DExperts zur Minderung expliziter Toxizität und testet die Methode gegen implizite Hassrede.
28