heapsort
RESEARCH28

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

arXiv CS.CL·15. Mai 2026

Diese umfassende Replikationsstudie bewertet die Wirksamkeit von DExperts, einer Inferenzzeit-Minderungstechnik, zur Reduzierung der Toxizität in großen Sprachmodellen. Die Forschung ermittelt Basiswerte für Toxizität, implementiert DExperts zur Minderung expliziter Toxizität und testet die Methode gegen implizite Hassrede.

Original lesen