Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
Esta investigación explora la mejora de la detección de lenguaje de odio translingüe utilizando datos web a gran escala y anotaciones sintéticas basadas en LLMs. Demuestra que el pre-entrenamiento continuo de modelos BERT con datos web y el ajuste fino con etiquetas sintéticas generadas por un conjunto de LLMs impulsan significativamente el rendimiento, particularmente en entornos de bajos recursos.