← heapsort-ai

multilingual

13 items

RESEARCHarXiv CS.CL·14/04/2026

Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering

Claim2Vec é um novo modelo de embedding multilíngue projetado para representar alegações de verificação de fatos como vetores para uma melhor compreensão semântica. Ele aborda o desafio do agrupamento de alegações para desinformação, utilizando aprendizado contrastivo em pares de alegações multilíngues semelhantes, melhorando significativamente o desempenho.

28
RESEARCHarXiv CS.CL·13d atrás

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

Este trabalho introduz o CroCo, um método de ajuste de preferência contrastivo interlingual em autogerações de LLMs, que demonstra transferência eficaz entre 14 idiomas sem anotações de preferência específicas. O modelo de recompensa treinado em inglês produz classificações úteis em várias línguas, melhorando os modelos e prevenindo o esquecimento catastrófico, desde que utilize dados on-policy.

27
RESEARCHDEV.to AI·20d atrás

Gemma Soteria

A aplicação móvel Gemma Soteria oferece orientação de emergência química via QR-First para trabalhadores de plantações, impulsionada por Gemma 4. Ela foi desenvolvida após a criação de um dataset de benchmark público para primeiros socorros químicos, focando em ações rápidas e superando desafios como conectividade e barreiras linguísticas.

27
RESEARCHarXiv CS.CL·22d atrás

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

DiscoExplorer apresenta uma interface web de código aberto para facilitar o estudo e a comparação de relações de discurso em 16 idiomas. A ferramenta aborda a complexidade dos dados e a falta de interfaces acessíveis em linguística computacional, oferecendo recursos de consulta, busca e visualização.

27
RESEARCHarXiv CS.CL·20d atrás

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Esta pesquisa apresenta um novo benchmark para avaliar sistemas comerciais de Reconhecimento Automático de Fala (ASR) em fala com alternância de código. Ele avalia cinco provedores de ASR em quatro pares de idiomas, incluindo árabe-inglês, persa-inglês e alemão-inglês, utilizando um pipeline sofisticado de seleção de dados em duas etapas.

27