RESEARCH28

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

arXiv CS.CL·14. April 2026

Diese Forschung untersucht die Verbesserung der mehrsprachigen Hassrede-Erkennung durch die Nutzung großer unmarkierter Webdaten und LLM-basierter synthetischer Annotationen. Sie zeigt, dass das fortgesetzte Vortraining von BERT-Modellen auf Webdaten und das Feinabstimmen mit synthetischen Labels, die von einem LLM-Ensemble generiert wurden, die Leistung erheblich steigert, insbesondere in ressourcenarmen Umgebungen.

Multilingual AI pre-training ensemble learning Hate Speech Detection LLM Annotation

Original lesen ↗