Multilingual AI

27 items

RESEARCHarXiv CS.CL·il y a 1j

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Cette recherche introduit PolyFact, un ensemble de données de QA factuel multilingue, pour aborder l'incohérence factuelle interlingue dans les LLMs. Elle constate que l'apprentissage par renforcement via GRPO améliore constamment le rappel factuel interlingue et la généralisation par rapport à l'ajustement fin supervisé.

Multilingual AI LLMs reinforcement learning machine learning

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Un projet a ajouté avec succès huit langues indiennes (télougou, kannada, bengali, tamoul, malayalam, marathi, gujarati et hindi) au modèle TTS Chatterbox-Multilingual en utilisant des adaptateurs LoRA et une extension de tokenizer. Cette approche a entraîné seulement 1,4% des paramètres du modèle, évitant l'ingénierie complexe des phonèmes généralement requise pour chaque langue.

Multilingual AI Chatterbox TTS LoRA

ARTICLEDEV.to AI·il y a 2j

Day 49: The Unseen Layers of Building Health AI for 22+ Indian Languages

Les LLM actuels comme GPT-4 peinent avec les requêtes médicales nuancées dans les langues indiennes en raison d'un biais fondamental dans leurs données d'entraînement, fortement orientées vers l'anglais. GoDavaii vise à combler cette lacune en développant une IA de Santé avancée pour plus de 22 langues indiennes, en se concentrant sur la pertinence contextuelle et l'accessibilité des connaissances médicales dans divers contextes linguistiques.

Multilingual AI India AI bias Health AI

RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Cette étude classifie le sentiment dans les avis en anglais et en bengali d'applications bancaires mobiles gouvernementales du Bangladesh, en utilisant une approche d'étiquetage hybride pour 5 652 avis. Elle a révélé que les modèles d'apprentissage automatique traditionnels comme Random Forest et Linear SVM ont significativement surpassé XLM-RoBERTa finement réglé pour cette tâche spécifique.

Multilingual AI machine learning natural language processing sentiment analysis

ARTICLEDEV.to AI·il y a 3j

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

L'article détaille les défis de la construction d'une IA de santé qui comprend véritablement les nuances des 22 langues officielles de l'Inde, illustrés par la complexité d'interpréter une phrase simple. Au 48ème jour depuis son lancement, GoDavaii s'attaque à d'immenses complexités linguistiques pour créer une IA qui va au-delà des solutions principalement en anglais.

Multilingual AI India natural language processing Health AI

RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

Multilingual AI Code-Switching Reasoning large language models

ARTICLEDEV.to AI·19/04/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

De nombreuses équipes OCR supposent qu'élargir l'ensemble de caractères améliore automatiquement la reconnaissance, mais cet article révèle une vision simplifiée. Le succès de l'OCR multilingue dépend fondamentalement d'un entraînement avec des données reflétant les formes réelles des glyphes, les variations de police, la distribution linguistique et les mises en page des documents.

Multilingual AI AI development challenges OCR

RESEARCHarXiv CS.CL·14/04/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Cette recherche étudie l'amélioration de la détection translingue du discours de haine en utilisant des données web à grande échelle et des annotations synthétiques basées sur des LLM. Elle démontre que le pré-entraînement continu des modèles BERT sur des données web et le réglage fin avec des étiquettes synthétiques générées par un ensemble de LLM augmentent significativement les performances, surtout dans des contextes de ressources limitées.

Multilingual AI pre-training ensemble learning Hate Speech Detection

ARTICLEDEV.to AI·23/04/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

ERNIE Image de Baidu est un modèle texte-vers-image open-source axé sur la génération de visuels de haute qualité avec du texte lisible intégré et un support bilingue chinois-anglais. Il excelle dans les compositions structurées comme les mises en page d'affiches et les scènes de bande dessinée, s'avérant utile pour divers flux de travail créatifs.

Multilingual AI Text-to-image open-source AI image generation

ARTICLEDEV.to AI·04/05/2026

The Aunty Test - what Hindi-speaking patients see when they ask Health AI in their own language

De nombreux systèmes d'IA pour la santé sont conçus en anglais, ce qui entraîne des échecs lorsque les patients posent des questions dans leur langue maternelle, comme l'hindi. GoDavaii comble cette lacune en raisonnant nativement en 22 langues indiennes pour fournir des informations médicales précises.

AI applications language models Multilingual AI healthcare AI

RESEARCHarXiv CS.CL·il y a 20j

Prompting language influences diagnostic reasoning and accuracy of large language models

Cette recherche a évalué l'impact de la langue d'invite sur le raisonnement diagnostique et la précision des grands modèles linguistiques (LLM) dans des contextes cliniques. Quatre des cinq modèles ont montré de meilleures performances en anglais, soulignant l'incertitude quant à la fiabilité des LLM dans d'autres langues.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy

ARTICLEDEV.to AI·il y a 28j

The Aunty Test - what Malayalam-speaking patients see when they ask Health AI in their own language

Ce contenu met en évidence l'échec des IA de santé centrées sur l'anglais à comprendre et à répondre avec précision aux requêtes médicales dans des langues non anglaises comme le malayalam. Il présente GoDavaii comme une IA capable de raisonner nativement en 22 langues indiennes, comblant ainsi une lacune critique dans l'accessibilité aux soins de santé pour un milliard de locuteurs non anglophones.

Multilingual AI global accessibility language barrier Healthcare

ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Bengali-speaking patients see when they ask Health AI in their own language

Ce contenu expose les limites de l'IA de Santé 'English-first', qui ne parvient pas à fournir des conseils précis pour les requêtes dans des langues comme le bengali en raison de couches de traduction défaillantes. Il met en lumière GoDavaii, une IA qui raisonne nativement en 22 langues indiennes, offrant une assistance médicale localisée supérieure.

Multilingual AI Healthcare localization

ARTICLEDEV.to AI·il y a 16j

How Google I/O 2026 Inspired Me to Start Building a Telugu Jarvis AI

Inspiré par Google I/O 2026, l'auteur a l'intention de développer un assistant IA axé sur le télougou. Cette initiative vise à rendre l'IA plus accessible aux étudiants en Inde qui préfèrent apprendre et communiquer dans des langues régionales, favorisant ainsi un apprentissage plus rapide et une plus grande confiance.

AI accessibility Multilingual AI India learning

ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Cet article souligne comment la plupart des IA de santé, conçues en anglais, échouent à gérer les requêtes médicales dans des langues locales comme le marathi. Il insiste sur la nécessité d'IA qui raisonnent nativement dans plusieurs langues pour fournir des conseils précis, par opposition aux approches de traduction ou de "vernissage" localisé.

language models Multilingual AI AI bias healthcare AI

DOCDEV.to AI·24/04/2026

Build a Multilingual AI Voice Bot: Auto-Detect and Respond in the Caller's Language

Ce contenu explique comment créer un bot vocal d'IA multilingue qui détecte et répond automatiquement dans la langue de l'appelant. Il aborde les trois couches technologiques essentielles (STT, LLM, TTS) nécessaires pour une expérience conversationnelle naturelle.

language detection Multilingual AI AI voice bot Speech-to-Text

ARTICLEDEV.to AI·07/05/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Le contenu explique comment l'IA de santé axée sur l'anglais a du mal à traiter les requêtes dans des langues natives comme le marathi, entraînant des réponses inexactes. Il souligne la nécessité d'une IA capable de raisonner nativement dans plusieurs langues pour un soutien de santé efficace.

Multilingual AI language barrier localization Health AI

ARTICLEHugging Face Blog·17/04/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Ce contenu aborde la construction d'un modèle d'OCR (Reconnaissance Optique de Caractères) rapide et multilingue. La méthodologie proposée utilise des données synthétiques pour l'entraînement et l'optimisation du modèle.

synthetic data Multilingual AI machine learning OCR

RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Cet article présente un cadre d'évaluation basé sur l'ILR pour analyser la cohérence des réponses interlingues de Claude (Sonnet 4.6) dans six langues. L'analyse quantitative et qualitative révèle des variations telles que des différences de longueur de réponse et une divergence de surface dans les clusters créatifs.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.CL·il y a 26j

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Les grands modèles de langage multilingues (MLLM) présentent souvent un comportement culturellement incohérent lorsque la langue de l'invite change. Pour y remédier, les chercheurs proposent une nouvelle métrique et un cadre d'alignement basé sur le consensus, C-3PO, qui améliore significativement la cohérence culturelle interlinguistique.

Multilingual AI LLMs AI alignment Cultural Bias