Multilingual AI

27 items

RESEARCHarXiv CS.CL·vor 1T

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Diese Forschung stellt PolyFact vor, einen mehrsprachigen faktischen QA-Datensatz, um die sprachübergreifende faktische Inkonsistenz in LLMs zu beheben. Es wird festgestellt, dass Reinforcement Learning mittels GRPO die sprachübergreifende faktenbasierte Wiedergabe und Generalisierung im Vergleich zu supervised Fine-Tuning konsistent verbessert.

Multilingual AI LLMs reinforcement learning machine learning

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Ein Projekt hat erfolgreich acht indische Sprachen (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati und Hindi) zum Chatterbox-Multilingual-TTS-Modell hinzugefügt, indem es LoRA-Adapter und Tokenizer-Erweiterung nutzte. Dieser Ansatz trainierte nur 1,4 % der Modellparameter und vermied so das komplexe Phonem-Engineering, das normalerweise für jede Sprache erforderlich ist.

Multilingual AI Chatterbox TTS LoRA

ARTICLEDEV.to AI·vor 2T

Day 49: The Unseen Layers of Building Health AI for 22+ Indian Languages

Aktuelle LLMs wie GPT-4 haben Schwierigkeiten mit nuancierten medizinischen Anfragen in indischen Sprachen, bedingt durch eine grundlegende Voreingenommenheit in ihren englischlastigen Trainingsdaten. GoDavaii zielt darauf ab, diese Lücke zu schließen, indem es fortschrittliche Gesundheits-KI für über 22 indische Sprachen entwickelt, wobei der Fokus darauf liegt, medizinisches Wissen in verschiedenen sprachlichen Kontexten relevant und zugänglich zu machen.

Multilingual AI India AI bias Health AI

RESEARCHarXiv CS.CL·4/16/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Diese Studie klassifiziert die Stimmung in englischen und bengalischen Rezensionen von mobilen Banking-Apps der bangladeschischen Regierung, basierend auf einem hybriden Etikettierungsansatz für 5.652 Rezensionen. Es wurde festgestellt, dass traditionelle Machine-Learning-Modelle wie Random Forest und Linear SVM XLM-RoBERTa für diese spezifische Aufgabe deutlich übertrafen.

Multilingual AI machine learning natural language processing sentiment analysis

ARTICLEDEV.to AI·vor 3T

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

Der Artikel beschreibt die Herausforderungen beim Aufbau einer Gesundheits-KI, die die Nuancen der 22 offiziellen Sprachen Indiens wirklich versteht, veranschaulicht durch die Komplexität der Interpretation eines einfachen Satzes. Am 48. Tag nach dem Start befasst sich GoDavaii mit immensen sprachlichen Komplexitäten, um eine KI zu schaffen, die über englischzentrierte Lösungen hinausgeht.

Multilingual AI India natural language processing Health AI

RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

Multilingual AI Code-Switching Reasoning large language models

ARTICLEDEV.to AI·4/19/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Viele OCR-Teams gehen davon aus, dass die Erweiterung des Zeichensatzes die Erkennung automatisch verbessert, doch dieser Artikel zeigt, dass dies eine vereinfachte Ansicht ist. Erfolgreiches mehrsprachiges OCR hängt entscheidend vom Training mit Daten ab, die tatsächliche Glyphenformen, Schriftartvariationen, Sprachverteilung und Dokumentenlayouts widerspiegeln.

Multilingual AI AI development challenges OCR

RESEARCHarXiv CS.CL·4/14/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Diese Forschung untersucht die Verbesserung der mehrsprachigen Hassrede-Erkennung durch die Nutzung großer unmarkierter Webdaten und LLM-basierter synthetischer Annotationen. Sie zeigt, dass das fortgesetzte Vortraining von BERT-Modellen auf Webdaten und das Feinabstimmen mit synthetischen Labels, die von einem LLM-Ensemble generiert wurden, die Leistung erheblich steigert, insbesondere in ressourcenarmen Umgebungen.

Multilingual AI pre-training ensemble learning Hate Speech Detection

ARTICLEDEV.to AI·4/23/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

Baidus ERNIE Image ist ein Open-Source-Text-zu-Bild-Modell, das sich auf die Generierung hochwertiger Visuals mit lesbarem Text und zweisprachiger chinesisch-englischer Unterstützung konzentriert. Es excelled in strukturierten Kompositionen wie Poster-Layouts und Comic-Szenen und ist nützlich für vielfältige kreative Arbeitsabläufe.

Multilingual AI Text-to-image open-source AI image generation

ARTICLEDEV.to AI·5/4/2026

The Aunty Test - what Hindi-speaking patients see when they ask Health AI in their own language

Viele Gesundheits-KI-Systeme sind englischzentriert, was zu Fehlern führt, wenn Patienten Anfragen in ihrer Muttersprache wie Hindi stellen. GoDavaii behebt diese Lücke, indem es nativ in 22 indischen Sprachen denkt, um präzise medizinische Informationen bereitzustellen.

AI applications language models Multilingual AI healthcare AI

RESEARCHarXiv CS.CL·vor 20T

Prompting language influences diagnostic reasoning and accuracy of large language models

Diese Forschung bewertete den Einfluss der Prompt-Sprache auf die diagnostische Argumentation und Genauigkeit großer Sprachmodelle (LLMs) im klinischen Umfeld. Vier von fünf Modellen zeigten eine bessere Leistung auf Englisch, was die Unsicherheit hinsichtlich der Zuverlässigkeit von LLMs in anderen Sprachen hervorhebt.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy

ARTICLEDEV.to AI·vor 28T

The Aunty Test - what Malayalam-speaking patients see when they ask Health AI in their own language

Dieser Inhalt beleuchtet das Versagen von englischzentrierter Gesundheits-KI, medizinische Anfragen in nicht-englischen Sprachen wie Malayalam präzise zu verstehen und zu beantworten. Er stellt GoDavaii als eine KI vor, die in 22 indischen Sprachen nativ denken kann, und schließt damit eine kritische Lücke in der Gesundheitsversorgung für eine Milliarde Nicht-Englischsprachige.

Multilingual AI global accessibility language barrier Healthcare

ARTICLEDEV.to AI·5/2/2026

The Aunty Test - what Bengali-speaking patients see when they ask Health AI in their own language

Dieser Inhalt deckt die Grenzen englischzentrierter Gesundheits-KI auf, die bei Anfragen in Sprachen wie Bengali aufgrund schlechter Übersetzungsschichten keine genauen Ratschläge liefert. Er stellt GoDavaii als eine KI vor, die nativ in 22 indischen Sprachen denkt und überlegene lokalisierte medizinische Hilfe bietet.

Multilingual AI Healthcare localization

ARTICLEDEV.to AI·vor 16T

How Google I/O 2026 Inspired Me to Start Building a Telugu Jarvis AI

Inspiriert von Google I/O 2026, beabsichtigt der Autor, einen Telugu-zentrierten KI-Assistenten zu entwickeln. Diese Initiative soll KI für Studenten in Indien zugänglicher machen, die es vorziehen, in regionalen Sprachen zu lernen und zu kommunizieren, wodurch schnelleres Lernen und größeres Vertrauen gefördert werden.

AI accessibility Multilingual AI India learning

ARTICLEDEV.to AI·5/2/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Dieser Artikel beleuchtet, wie die meisten englischsprachigen KI-Gesundheitssysteme bei medizinischen Anfragen in lokalen Sprachen wie Marathi versagen. Er betont die Notwendigkeit von KI, die nativ in mehreren Sprachen argumentiert, anstatt sich auf Übersetzungs- oder lokalisierungsbasierte Ansätze zu verlassen, um genaue Gesundheitsberatung zu bieten.

language models Multilingual AI AI bias healthcare AI

DOCDEV.to AI·4/24/2026

Build a Multilingual AI Voice Bot: Auto-Detect and Respond in the Caller's Language

Dieser Inhalt beschreibt, wie man einen mehrsprachigen KI-Sprachbot erstellt, der die Sprache des Anrufers automatisch erkennt und in dieser antwortet. Er behandelt die drei wesentlichen Technologieschichten (STT, LLM, TTS) für ein natürliches Gesprächserlebnis.

language detection Multilingual AI AI voice bot Speech-to-Text

ARTICLEDEV.to AI·5/7/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Der Inhalt erörtert, wie englischzentrierte Gesundheits-KI Schwierigkeiten hat, Anfragen in Muttersprachen wie Marathi zu verarbeiten, was zu ungenauen Antworten führt. Es wird betont, dass KI in mehreren Sprachen nativ denken können muss, um eine effektive Gesundheitsunterstützung zu gewährleisten.

Multilingual AI language barrier localization Health AI

ARTICLEHugging Face Blog·4/17/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Dieser Inhalt behandelt den Aufbau eines schnellen und mehrsprachigen OCR-Modells (Optical Character Recognition). Die vorgeschlagene Methodik umfasst die Nutzung synthetischer Daten für das Modelltraining und die Optimierung.

synthetic data Multilingual AI machine learning OCR

RESEARCHarXiv CS.CL·5/1/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Dieses Papier stellt einen ILR-informierten Bewertungsrahmen vor, um die sprachübergreifende Antwortkonsistenz von Claude (Sonnet 4.6) in sechs Sprachen zu evaluieren. Die quantitative und qualitative Analyse zeigt sprachspezifische Variationen auf, wie z.B. Unterschiede in der Antwortlänge und oberflächliche Divergenzen in kreativen Clustern.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.CL·vor 26T

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Mehrsprachige große Sprachmodelle (MLLMs) zeigen oft inkonsistentes Verhalten bei kulturellen Identitäten, wenn die Prompt-Sprache wechselt. Zur Minderung dieses Problems führen Forscher eine neue Metrik und ein konsensbasiertes Ausrichtungs-Framework, C-3PO, ein, das die sprachübergreifende kulturelle Konsistenz signifikant verbessert.

Multilingual AI LLMs AI alignment Cultural Bias