Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
Este estudo investiga a melhoria da detecção de discurso de ódio translingual utilizando dados web em larga escala e anotações sintéticas baseadas em LLMs. A pesquisa demonstra que o pré-treinamento contínuo de modelos BERT em dados da web e o ajuste fino com rótulos sintéticos gerados por um conjunto de LLMs aumentam significativamente o desempenho, especialmente em configurações de recursos limitados.