Replication Study — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 26T

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Diese umfassende Replikationsstudie bewertet die Wirksamkeit von DExperts, einer Inferenzzeit-Minderungstechnik, zur Reduzierung der Toxizität in großen Sprachmodellen. Die Forschung ermittelt Basiswerte für Toxizität, implementiert DExperts zur Minderung expliziter Toxizität und testet die Methode gegen implizite Hassrede.

DExperts security Toxicity large language models