← heapsort-ai

Multilingual AI

27 items

RESEARCHarXiv CS.CL·hace 1d

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Esta investigación presenta PolyFact, un conjunto de datos de preguntas y respuestas factuales multilingüe, para abordar la inconsistencia factual entre idiomas en los LLMs. Se encuentra que el aprendizaje por refuerzo a través de GRPO mejora consistentemente la recuperación factual entre idiomas y la generalización en comparación con el ajuste fino supervisado.

60
ARTICLE↑ trendingReddit r/MachineLearning·15/4/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Un proyecto añadió con éxito ocho idiomas indios (telugu, canarés, bengalí, tamil, malabar, maratí, gujarati e hindi) al modelo TTS Chatterbox-Multilingual utilizando adaptadores LoRA y extensión de tokenizador. Este enfoque entrenó solo el 1,4% de los parámetros del modelo, evitando la compleja ingeniería de fonemas que suele ser necesaria para cada idioma.

43
ARTICLEDEV.to AI·hace 2d

Day 49: The Unseen Layers of Building Health AI for 22+ Indian Languages

Los LLM actuales, como GPT-4, tienen dificultades con consultas médicas matizadas en idiomas indios debido a un sesgo fundamental en sus datos de entrenamiento, muy inclinados hacia el inglés. GoDavaii busca cerrar esta brecha desarrollando IA de Salud avanzada para más de 22 idiomas indios, centrándose en hacer el conocimiento médico contextualmente relevante y accesible en diversos entornos lingüísticos.

34
RESEARCHarXiv CS.CL·16/4/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Este estudio clasifica el sentimiento en reseñas en inglés y bengalí de aplicaciones de banca móvil gubernamentales de Bangladés, empleando un enfoque de etiquetado híbrido para 5.652 reseñas. Se encontró que los modelos tradicionales de aprendizaje automático, como Random Forest y Linear SVM, superaron significativamente al XLM-RoBERTa ajustado para esta tarea específica.

31
ARTICLEDEV.to AI·hace 3d

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

El artículo describe los desafíos de construir una IA de salud que realmente entienda los matices de los 22 idiomas oficiales de la India, ejemplificado por la complejidad de interpretar una frase simple. En el día 48 desde su lanzamiento, GoDavaii está abordando inmensas complejidades lingüísticas para crear una IA que trascienda las soluciones centradas en el inglés.

30
RESEARCHarXiv CS.CL·20/4/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta investigación introduce un marco de ajuste fino (fine-tuning) eficiente en datos para enseñar a los modelos de razonamiento de lenguaje a alternar idiomas (code-switch) de manera efectiva en tareas de razonamiento. Busca identificar comportamientos beneficiosos de alternancia de idiomas, analizando sistemáticamente rastros de razonamiento diversos.

29
ARTICLEDEV.to AI·19/4/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Muchos equipos de OCR asumen que expandir el conjunto de caracteres mejora automáticamente el reconocimiento, pero este artículo revela que es una visión simplificada. El éxito del OCR multilingüe depende críticamente del entrenamiento con datos que reflejen formas de glifos reales, variaciones de fuentes, distribución de idiomas y diseños de documentos.

28
RESEARCHarXiv CS.CL·14/4/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Esta investigación explora la mejora de la detección de lenguaje de odio translingüe utilizando datos web a gran escala y anotaciones sintéticas basadas en LLMs. Demuestra que el pre-entrenamiento continuo de modelos BERT con datos web y el ajuste fino con etiquetas sintéticas generadas por un conjunto de LLMs impulsan significativamente el rendimiento, particularmente en entornos de bajos recursos.

28
RESEARCHarXiv CS.CL·hace 20d

Prompting language influences diagnostic reasoning and accuracy of large language models

Esta investigación evaluó el impacto del idioma de las instrucciones en el razonamiento diagnóstico y la precisión de los grandes modelos de lenguaje (LLM) en entornos clínicos. Cuatro de los cinco modelos mostraron un mejor rendimiento en inglés, subrayando la incertidumbre sobre la fiabilidad de los LLM en otros idiomas.

27
ARTICLEDEV.to AI·hace 28d

The Aunty Test - what Malayalam-speaking patients see when they ask Health AI in their own language

Este contenido resalta el fracaso de la IA de salud centrada en inglés para comprender y responder con precisión a consultas médicas en idiomas no ingleses como el malayalam. Presenta a GoDavaii como una IA capaz de razonar de forma nativa en 22 idiomas indios, abordando una brecha crítica en la accesibilidad a la atención médica para mil millones de hablantes no ingleses.

27
ARTICLEDEV.to AI·2/5/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Este artículo subraya cómo la mayoría de las IAs de salud, diseñadas primero en inglés, fallan al manejar consultas médicas en idiomas locales como el maratí. Destaca la necesidad de IAs que razonen nativamente en múltiples idiomas para proporcionar orientación precisa, en lugar de depender de capas de traducción o "chapados" localizados.

27
RESEARCHarXiv CS.CL·1/5/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Este estudio introduce un marco de evaluación basado en ILR para analizar la consistencia de respuestas interlingüísticas de Claude (Sonnet 4.6) en seis idiomas. A través de métricas cuantitativas y evaluación cualitativa, se identifican variaciones como diferencias en la longitud de las respuestas y divergencias superficiales en grupos creativos.

27
RESEARCHarXiv CS.CL·hace 26d

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Los grandes modelos de lenguaje multilingües (MLLM) a menudo muestran un comportamiento inconsistente en cuanto a la identidad cultural entre idiomas. Para mitigar esto, los investigadores proponen una nueva métrica y un marco de alineación basado en el consenso, C-3PO, que mejora notablemente la consistencia cultural interlingüística.

27