← heapsort-ai

multilingual

13 items

RESEARCHarXiv CS.CL·14/4/2026

Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering

Claim2Vec es un novedoso modelo de embedding multilingüe diseñado para representar afirmaciones de verificación de hechos como vectores para una mejor comprensión semántica. Aborda el desafío de la agrupación de afirmaciones para la desinformación aprovechando el aprendizaje contrastivo en pares de afirmaciones multilingües similares, mejorando significativamente el rendimiento.

28
RESEARCHarXiv CS.CL·hace 13d

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

Este trabajo presenta CroCo, un método de ajuste de preferencias contrastivas interlingües en autogeneraciones de LLMs, que demuestra una transferencia efectiva entre 14 idiomas sin anotaciones de preferencia específicas. Un modelo de recompensa entrenado en inglés produce clasificaciones útiles en la mayoría de los idiomas, mejorando los modelos existentes y previniendo el olvido catastrófico, siempre que se utilicen datos on-policy.

27
RESEARCHDEV.to AI·hace 20d

Gemma Soteria

La aplicación móvil Gemma Soteria ofrece orientación de emergencia química QR-First para trabajadores de plantaciones, impulsada por Gemma 4. Fue desarrollada tras la creación de un conjunto de datos de referencia público para primeros auxilios químicos, centrándose en acciones rápidas y superando desafíos como la conectividad y las barreras lingüísticas.

27
RESEARCHarXiv CS.AI·hace 24d

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

El artículo presenta PolitNuggets, un benchmark multilingüe para la síntesis de información agéntica, centrado en la construcción de biografías políticas para 400 élites globales. Evalúa grandes modelos de razonamiento en el descubrimiento y la síntesis de hechos políticos de "cola larga", destacando desafíos en detalles finos y eficiencia.

27
RESEARCHarXiv CS.CL·hace 22d

DiscoExplorer: An Open Interface for the Study of Multilingual Discourse Relations

DiscoExplorer introduce una interfaz web de código abierto para facilitar el estudio y la comparación interlingüística de las relaciones de discurso en 16 idiomas. Esta herramienta aborda la complejidad de los datos relevantes y la falta de interfaces accesibles en lingüística computacional, proporcionando funciones de consulta, búsqueda y visualización.

27
RESEARCHarXiv CS.CL·hace 20d

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Esta investigación introduce un nuevo benchmark para evaluar sistemas comerciales de Reconocimiento Automático de Voz (ASR) en habla con cambio de código. Evalúa a cinco proveedores de ASR en cuatro pares de idiomas, incluyendo árabe-inglés, persa-inglés y alemán-inglés, utilizando un sofisticado pipeline de selección de datos en dos etapas.

27