← heapsort-ai

Multilingual AI

27 items

RESEARCHarXiv CS.CL·il y a 1j

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Cette recherche introduit PolyFact, un ensemble de données de QA factuel multilingue, pour aborder l'incohérence factuelle interlingue dans les LLMs. Elle constate que l'apprentissage par renforcement via GRPO améliore constamment le rappel factuel interlingue et la généralisation par rapport à l'ajustement fin supervisé.

60
ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Un projet a ajouté avec succès huit langues indiennes (télougou, kannada, bengali, tamoul, malayalam, marathi, gujarati et hindi) au modèle TTS Chatterbox-Multilingual en utilisant des adaptateurs LoRA et une extension de tokenizer. Cette approche a entraîné seulement 1,4% des paramètres du modèle, évitant l'ingénierie complexe des phonèmes généralement requise pour chaque langue.

43
ARTICLEDEV.to AI·il y a 2j

Day 49: The Unseen Layers of Building Health AI for 22+ Indian Languages

Les LLM actuels comme GPT-4 peinent avec les requêtes médicales nuancées dans les langues indiennes en raison d'un biais fondamental dans leurs données d'entraînement, fortement orientées vers l'anglais. GoDavaii vise à combler cette lacune en développant une IA de Santé avancée pour plus de 22 langues indiennes, en se concentrant sur la pertinence contextuelle et l'accessibilité des connaissances médicales dans divers contextes linguistiques.

34
RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Cette étude classifie le sentiment dans les avis en anglais et en bengali d'applications bancaires mobiles gouvernementales du Bangladesh, en utilisant une approche d'étiquetage hybride pour 5 652 avis. Elle a révélé que les modèles d'apprentissage automatique traditionnels comme Random Forest et Linear SVM ont significativement surpassé XLM-RoBERTa finement réglé pour cette tâche spécifique.

31
ARTICLEDEV.to AI·il y a 3j

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

L'article détaille les défis de la construction d'une IA de santé qui comprend véritablement les nuances des 22 langues officielles de l'Inde, illustrés par la complexité d'interpréter une phrase simple. Au 48ème jour depuis son lancement, GoDavaii s'attaque à d'immenses complexités linguistiques pour créer une IA qui va au-delà des solutions principalement en anglais.

30
RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

29
ARTICLEDEV.to AI·19/04/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

De nombreuses équipes OCR supposent qu'élargir l'ensemble de caractères améliore automatiquement la reconnaissance, mais cet article révèle une vision simplifiée. Le succès de l'OCR multilingue dépend fondamentalement d'un entraînement avec des données reflétant les formes réelles des glyphes, les variations de police, la distribution linguistique et les mises en page des documents.

28
RESEARCHarXiv CS.CL·14/04/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Cette recherche étudie l'amélioration de la détection translingue du discours de haine en utilisant des données web à grande échelle et des annotations synthétiques basées sur des LLM. Elle démontre que le pré-entraînement continu des modèles BERT sur des données web et le réglage fin avec des étiquettes synthétiques générées par un ensemble de LLM augmentent significativement les performances, surtout dans des contextes de ressources limitées.

28
ARTICLEDEV.to AI·23/04/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

ERNIE Image de Baidu est un modèle texte-vers-image open-source axé sur la génération de visuels de haute qualité avec du texte lisible intégré et un support bilingue chinois-anglais. Il excelle dans les compositions structurées comme les mises en page d'affiches et les scènes de bande dessinée, s'avérant utile pour divers flux de travail créatifs.

28
RESEARCHarXiv CS.CL·il y a 20j

Prompting language influences diagnostic reasoning and accuracy of large language models

Cette recherche a évalué l'impact de la langue d'invite sur le raisonnement diagnostique et la précision des grands modèles linguistiques (LLM) dans des contextes cliniques. Quatre des cinq modèles ont montré de meilleures performances en anglais, soulignant l'incertitude quant à la fiabilité des LLM dans d'autres langues.

27
ARTICLEDEV.to AI·il y a 28j

The Aunty Test - what Malayalam-speaking patients see when they ask Health AI in their own language

Ce contenu met en évidence l'échec des IA de santé centrées sur l'anglais à comprendre et à répondre avec précision aux requêtes médicales dans des langues non anglaises comme le malayalam. Il présente GoDavaii comme une IA capable de raisonner nativement en 22 langues indiennes, comblant ainsi une lacune critique dans l'accessibilité aux soins de santé pour un milliard de locuteurs non anglophones.

27
ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Bengali-speaking patients see when they ask Health AI in their own language

Ce contenu expose les limites de l'IA de Santé 'English-first', qui ne parvient pas à fournir des conseils précis pour les requêtes dans des langues comme le bengali en raison de couches de traduction défaillantes. Il met en lumière GoDavaii, une IA qui raisonne nativement en 22 langues indiennes, offrant une assistance médicale localisée supérieure.

27
ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Cet article souligne comment la plupart des IA de santé, conçues en anglais, échouent à gérer les requêtes médicales dans des langues locales comme le marathi. Il insiste sur la nécessité d'IA qui raisonnent nativement dans plusieurs langues pour fournir des conseils précis, par opposition aux approches de traduction ou de "vernissage" localisé.

27
RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Cet article présente un cadre d'évaluation basé sur l'ILR pour analyser la cohérence des réponses interlingues de Claude (Sonnet 4.6) dans six langues. L'analyse quantitative et qualitative révèle des variations telles que des différences de longueur de réponse et une divergence de surface dans les clusters créatifs.

27
RESEARCHarXiv CS.CL·il y a 26j

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Les grands modèles de langage multilingues (MLLM) présentent souvent un comportement culturellement incohérent lorsque la langue de l'invite change. Pour y remédier, les chercheurs proposent une nouvelle métrique et un cadre d'alignement basé sur le consensus, C-3PO, qui améliore significativement la cohérence culturelle interlinguistique.

27