RESEARCH28

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

arXiv CS.CL·14 de abril de 2026

Esta investigación explora la mejora de la detección de lenguaje de odio translingüe utilizando datos web a gran escala y anotaciones sintéticas basadas en LLMs. Demuestra que el pre-entrenamiento continuo de modelos BERT con datos web y el ajuste fino con etiquetas sintéticas generadas por un conjunto de LLMs impulsan significativamente el rendimiento, particularmente en entornos de bajos recursos.

Multilingual AI pre-training ensemble learning Hate Speech Detection LLM Annotation

Leer original ↗