Multilingual AI

27 items

RESEARCHarXiv CS.CL·1d atrás

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Esta pesquisa introduz PolyFact, um dataset de QA factual multilíngue, para abordar a inconsistência factual entre idiomas em LLMs. Conclui-se que o aprendizado por reforço via GRPO consistentemente melhora a recuperação factual entre idiomas e a generalização em comparação com o fine-tuning supervisionado.

Multilingual AI LLMs reinforcement learning machine learning

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Um projeto adicionou oito idiomas indianos (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati e Hindi) ao modelo Chatterbox-Multilingual TTS usando adaptadores LoRA e extensão de tokenizador. Esta abordagem treinou apenas 1,4% dos parâmetros do modelo, sem a necessidade de engenharia de fonemas complexa para cada idioma.

Multilingual AI Chatterbox TTS LoRA

ARTICLEDEV.to AI·2d atrás

Day 49: The Unseen Layers of Building Health AI for 22+ Indian Languages

Os LLMs atuais, como o GPT-4, falham em lidar com consultas médicas detalhadas em idiomas indianos devido a um viés fundamental nos seus dados de treino, fortemente orientados para o inglês. A GoDavaii visa preencher esta lacuna, desenvolvendo IA de Saúde avançada para mais de 22 idiomas indianos, focando em tornar o conhecimento médico contextualmente relevante e acessível em diversos contextos linguísticos.

Multilingual AI India AI bias Health AI

RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Este estudo classifica o sentimento em avaliações em inglês e bengali de aplicativos bancários móveis governamentais de Bangladesh, utilizando uma abordagem de rotulagem híbrida para 5.652 avaliações. Os modelos tradicionais de aprendizado de máquina, como Random Forest e Linear SVM, superaram significativamente o XLM-RoBERTa ajustado para esta tarefa específica.

Multilingual AI machine learning natural language processing sentiment analysis

ARTICLEDEV.to AI·3d atrás

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

O artigo descreve os desafios de construir uma IA de saúde que compreenda as nuances de 22 idiomas indianos, destacando a complexidade de interpretar frases simples em diferentes contextos culturais. A equipe da GoDavaii, no dia 48 desde o lançamento, enfrenta a imensa tarefa de desenvolver uma IA que transcenda as soluções predominantemente em inglês.

Multilingual AI India natural language processing Health AI

RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta pesquisa introduz uma estrutura de ajuste fino (fine-tuning) eficiente em dados para ensinar modelos de raciocínio a realizar code-switching de forma eficaz em tarefas de raciocínio. O objetivo é identificar comportamentos de code-switching benéficos, analisando sistematicamente dados de modelos e tarefas diversas.

Multilingual AI Code-Switching Reasoning large language models

ARTICLEDEV.to AI·19/04/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Muitas equipes de OCR presumem que expandir o conjunto de caracteres melhora automaticamente o reconhecimento, mas este artigo revela que essa é uma visão simplificada. O sucesso do OCR multilíngue depende criticamente do treinamento com dados que reflitam formatos de glifos reais, variações de fontes, distribuição de idiomas e layouts de documentos.

Multilingual AI AI development challenges OCR

RESEARCHarXiv CS.CL·14/04/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Este estudo investiga a melhoria da detecção de discurso de ódio translingual utilizando dados web em larga escala e anotações sintéticas baseadas em LLMs. A pesquisa demonstra que o pré-treinamento contínuo de modelos BERT em dados da web e o ajuste fino com rótulos sintéticos gerados por um conjunto de LLMs aumentam significativamente o desempenho, especialmente em configurações de recursos limitados.

Multilingual AI pre-training ensemble learning Hate Speech Detection

ARTICLEDEV.to AI·23/04/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

O ERNIE Image da Baidu é um modelo open-source de texto para imagem focado em gerar visuais de alta qualidade com texto legível e suporte bilíngue chinês-inglês. Ele se destaca em composições estruturadas como layouts de pôsteres e cenas de quadrinhos, sendo útil para diversos fluxos de trabalho criativos.

Multilingual AI Text-to-image open-source AI image generation

ARTICLEDEV.to AI·04/05/2026

The Aunty Test - what Hindi-speaking patients see when they ask Health AI in their own language

Muitos sistemas de IA de saúde priorizam o inglês, resultando em falhas quando pacientes fazem perguntas em idiomas nativos, como o hindi. O GoDavaii aborda essa lacuna, raciocinando nativamente em 22 idiomas indianos para fornecer informações médicas precisas.

AI applications language models Multilingual AI healthcare AI

RESEARCHarXiv CS.CL·20d atrás

Prompting language influences diagnostic reasoning and accuracy of large language models

Esta pesquisa avaliou o impacto do idioma de prompt no raciocínio diagnóstico e na precisão de grandes modelos de linguagem (LLMs) em contextos clínicos. Quatro dos cinco modelos testados demonstraram melhor desempenho em inglês, evidenciando a incerteza quanto à confiabilidade dos LLMs em outros idiomas.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy

ARTICLEDEV.to AI·28d atrás

The Aunty Test - what Malayalam-speaking patients see when they ask Health AI in their own language

Este conteúdo destaca a falha da IA de Saúde centrada no inglês em compreender e responder com precisão a consultas médicas em idiomas não-ingleses, como o malaiala. Apresenta o GoDavaii como uma IA capaz de raciocinar nativamente em 22 idiomas indianos, abordando uma lacuna crítica na acessibilidade aos cuidados de saúde para mil milhões de falantes não-ingleses.

Multilingual AI global accessibility language barrier Healthcare

ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Bengali-speaking patients see when they ask Health AI in their own language

Este conteúdo expõe as limitações da IA de Saúde 'English-first', que falha em fornecer conselhos precisos para consultas em idiomas como o bengali devido a camadas de tradução deficientes. Destaca a GoDavaii como uma IA que raciocina nativamente em 22 idiomas indianos, oferecendo assistência médica localizada superior.

Multilingual AI Healthcare localization

ARTICLEDEV.to AI·16d atrás

How Google I/O 2026 Inspired Me to Start Building a Telugu Jarvis AI

Inspirado pelo Google I/O 2026, o autor pretende desenvolver um assistente de IA focado no telugu. O objetivo é tornar a IA mais acessível a estudantes na Índia que preferem aprender e comunicar em línguas regionais, promovendo assim uma aprendizagem mais rápida e confiança.

AI accessibility Multilingual AI India learning

ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Este artigo destaca como a maioria das IAs de saúde, construídas em primeiro lugar em inglês, falha ao lidar com consultas médicas em idiomas locais como o marata. Ele aponta a necessidade de IAs que raciocinem nativamente em múltiplos idiomas para fornecer orientações precisas, ao contrário das abordagens de tradução ou "verniz localizado".

language models Multilingual AI AI bias healthcare AI

DOCDEV.to AI·24/04/2026

Build a Multilingual AI Voice Bot: Auto-Detect and Respond in the Caller's Language

Este conteúdo detalha como construir um bot de voz com IA multilíngue que detecta e responde automaticamente no idioma do interlocutor. Ele aborda os três pilares tecnológicos (STT, LLM, TTS) essenciais para uma experiência de conversação natural.

language detection Multilingual AI AI voice bot Speech-to-Text

ARTICLEDEV.to AI·07/05/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

O conteúdo aborda como a IA de saúde focada no inglês falha ao processar consultas em idiomas nativos como o marathi, resultando em respostas imprecisas. Ele destaca a necessidade de IA que raciocine nativamente em várias línguas para um suporte de saúde eficaz.

Multilingual AI language barrier localization Health AI

ARTICLEHugging Face Blog·17/04/2026

Building a Fast Multilingual OCR Model with Synthetic Data

Este conteúdo aborda a construção de um modelo de Reconhecimento Óptico de Caracteres (OCR) rápido e multilíngue. A metodologia proposta utiliza dados sintéticos para o treinamento e otimização do modelo.

synthetic data Multilingual AI machine learning OCR

RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Este artigo introduz uma estrutura de avaliação informada pelo ILR para analisar a consistência de respostas cross-linguais do Claude (Sonnet 4.6) em seis idiomas. A análise quantitativa e qualitativa revela variações como diferenças de comprimento nas respostas e divergência superficial em clusters criativos entre os idiomas.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.CL·26d atrás

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Modelos de linguagem grandes multilíngues (MLLMs) frequentemente exibem comportamento inconsistente em relação à identidade cultural entre idiomas. Pesquisadores introduzem uma nova métrica, Singleton Fleiss's "k_S", e um framework de alinhamento consensual, C-3PO, para mitigar essas inconsistências, alcançando melhorias significativas.

Multilingual AI LLMs AI alignment Cultural Bias