← heapsort-ai

multilingual

13 items

RESEARCHarXiv CS.CL·4/14/2026

Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering

Claim2Vec ist ein neuartiges mehrsprachiges Embedding-Modell, das Faktenprüfungsansprüche als Vektoren für ein verbessertes semantisches Verständnis darstellt. Es begegnet der Herausforderung der Anspruchs-Clusterbildung für Fehlinformationen, indem es kontrastives Lernen an ähnlichen mehrsprachigen Anspruchspaaren nutzt und so die Leistung erheblich steigert.

28
RESEARCHarXiv CS.CL·vor 13T

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

Diese Arbeit stellt CroCo vor, eine Methode zur kontrastiven Präferenzeinstellung über Sprachen hinweg für selbstgenerierte Antworten von LLMs, die eine effektive Übertragung über 14 Sprachen ohne sprachspezifische Präferenzannotationen zeigt. Ein auf englischen Präferenzen trainiertes Belohnungsmodell liefert nützliche Rankings in den meisten Sprachen, verbessert bestehende Modelle und verhindert katastrophales Vergessen, vorausgesetzt, On-Policy-Daten werden verwendet.

27
RESEARCHDEV.to AI·vor 20T

Gemma Soteria

Die mobile App Gemma Soteria bietet QR-First-Anleitungen für chemische Notfälle für Plantagenarbeiter, basierend auf Gemma 4. Sie wurde nach der Erstellung eines öffentlichen Benchmark-Datensatzes für chemische Erste Hilfe entwickelt, mit Fokus auf schnelle Maßnahmen und die Überwindung von Konnektivitäts- und Sprachbarrieren.

27
RESEARCHarXiv CS.AI·vor 24T

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

Dieses Papier stellt PolitNuggets vor, einen mehrsprachigen Benchmark für die agentische Informationssynthese, der sich auf die Erstellung politischer Biografien für 400 globale Eliten konzentriert. Es bewertet große Schlussfolgerungsmodelle bei der Entdeckung und Synthese von "Long-Tail"-Politikfakten und zeigt Herausforderungen bei feinen Details und der Effizienz auf.

27
RESEARCHarXiv CS.CL·vor 22T

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

DiscoExplorer stellt eine Open-Source-Weboberfläche vor, die das Studium und den sprachübergreifenden Vergleich von Diskursbeziehungen in 16 Sprachen erleichtern soll. Dieses Tool begegnet der Komplexität relevanter Daten und dem Mangel an zugänglichen Schnittstellen in der Computerlinguistik, indem es Abfrage-, Such- und Visualisierungsfunktionen bietet.

27
RESEARCHarXiv CS.CL·vor 20T

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Diese Forschung stellt einen neuen Benchmark zur Bewertung kommerzieller ASR-Systeme (Automatic Speech Recognition) bei Code-Switching-Sprache vor. Es werden fünf ASR-Anbieter über vier Sprachpaare, darunter Arabisch-Englisch, Persisch-Englisch und Deutsch-Englisch, unter Verwendung einer ausgeklügelten zweistufigen Datenauswahlpipeline bewertet.

27
RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

27