← heapsort-ai

multilingual

13 items

RESEARCHarXiv CS.CL·14/04/2026

Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering

Claim2Vec est un nouveau modèle d'intégration multilingue conçu pour représenter les allégations de vérification des faits sous forme de vecteurs pour une meilleure compréhension sémantique. Il aborde le défi du regroupement d'allégations pour la désinformation en tirant parti de l'apprentissage contrastif sur des paires d'allégations multilingues similaires, améliorant considérablement les performances.

28
RESEARCHarXiv CS.CL·il y a 13j

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

Ce travail présente CroCo, une méthode de réglage de préférence contrastif interlingue sur les auto-générations de LLM, démontrant un transfert efficace sur 14 langues sans annotation de préférence spécifique. Un modèle de récompense entraîné en anglais produit des classements utiles dans la plupart des langues, améliorant les modèles existants et empêchant l'oubli catastrophique, à condition d'utiliser des données on-policy.

27
RESEARCHDEV.to AI·il y a 20j

Gemma Soteria

L'application mobile Gemma Soteria fournit des conseils d'urgence chimique QR-First aux travailleurs des plantations, alimentée par Gemma 4. Elle a été développée après la création d'un ensemble de données de référence public pour les premiers secours chimiques, se concentrant sur des actions rapides et surmontant les défis de connectivité et de langue.

27
RESEARCHarXiv CS.AI·il y a 24j

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

Cet article introduit PolitNuggets, un benchmark multilingue pour la synthèse d'informations agêntiques, axé sur la construction de biographies politiques pour 400 élites mondiales. Il évalue les grands modèles de raisonnement dans la découverte et la synthèse de faits politiques de "longue traîne", soulignant les défis liés aux détails précis et à l'efficacité.

27
RESEARCHarXiv CS.CL·il y a 22j

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

DiscoExplorer présente une interface web open source conçue pour faciliter l'étude et la comparaison interlinguistique des relations de discours dans 16 langues. Cet outil répond à la complexité des données pertinentes et au manque d'interfaces accessibles en linguistique computationnelle, en offrant des fonctionnalités de requête, de recherche et de visualisation.

27
RESEARCHarXiv CS.CL·il y a 20j

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Cette recherche présente un nouveau benchmark pour évaluer les systèmes commerciaux de reconnaissance automatique de la parole (ASR) sur le discours à alternance codique. Il évalue cinq fournisseurs d'ASR sur quatre paires de langues, y compris arabe-anglais, persan-anglais et allemand-anglais, en utilisant un pipeline de sélection de données sophistiqué en deux étapes.

27