← heapsort-ai

LLM Annotation

1 items

RESEARCHarXiv CS.CL·4/14/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Diese Forschung untersucht die Verbesserung der mehrsprachigen Hassrede-Erkennung durch die Nutzung großer unmarkierter Webdaten und LLM-basierter synthetischer Annotationen. Sie zeigt, dass das fortgesetzte Vortraining von BERT-Modellen auf Webdaten und das Feinabstimmen mit synthetischen Labels, die von einem LLM-Ensemble generiert wurden, die Leistung erheblich steigert, insbesondere in ressourcenarmen Umgebungen.

28