RESEARCH28

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

arXiv CS.CL·15. Mai 2026

Diese umfassende Replikationsstudie bewertet die Wirksamkeit von DExperts, einer Inferenzzeit-Minderungstechnik, zur Reduzierung der Toxizität in großen Sprachmodellen. Die Forschung ermittelt Basiswerte für Toxizität, implementiert DExperts zur Minderung expliziter Toxizität und testet die Methode gegen implizite Hassrede.

DExperts security Toxicity large language models Replication Study

Original lesen ↗