RESEARCH28
Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
arXiv CS.CL·14. April 2026
Diese Forschung untersucht die Verbesserung der mehrsprachigen Hassrede-Erkennung durch die Nutzung großer unmarkierter Webdaten und LLM-basierter synthetischer Annotationen. Sie zeigt, dass das fortgesetzte Vortraining von BERT-Modellen auf Webdaten und das Feinabstimmen mit synthetischen Labels, die von einem LLM-Ensemble generiert wurden, die Leistung erheblich steigert, insbesondere in ressourcenarmen Umgebungen.
Original lesen ↗