RESEARCH28
Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
arXiv CS.CL·15. Mai 2026
Diese umfassende Replikationsstudie bewertet die Wirksamkeit von DExperts, einer Inferenzzeit-Minderungstechnik, zur Reduzierung der Toxizität in großen Sprachmodellen. Die Forschung ermittelt Basiswerte für Toxizität, implementiert DExperts zur Minderung expliziter Toxizität und testet die Methode gegen implizite Hassrede.
Original lesen ↗