Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
Diese Forschung untersucht die Verbesserung der mehrsprachigen Hassrede-Erkennung durch die Nutzung großer unmarkierter Webdaten und LLM-basierter synthetischer Annotationen. Sie zeigt, dass das fortgesetzte Vortraining von BERT-Modellen auf Webdaten und das Feinabstimmen mit synthetischen Labels, die von einem LLM-Ensemble generiert wurden, die Leistung erheblich steigert, insbesondere in ressourcenarmen Umgebungen.