← heapsort-ai

LLM Annotation

1 items

RESEARCHarXiv CS.CL·14/04/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Cette recherche étudie l'amélioration de la détection translingue du discours de haine en utilisant des données web à grande échelle et des annotations synthétiques basées sur des LLM. Elle démontre que le pré-entraînement continu des modèles BERT sur des données web et le réglage fin avec des étiquettes synthétiques générées par un ensemble de LLM augmentent significativement les performances, surtout dans des contextes de ressources limitées.

28