← heapsort-ai

Multilingual AI

27 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

[P] Added 8 Indian languages to Chatterbox TTS via LoRA — 1.4% of parameters, no phoneme engineering [P]

Um projeto adicionou oito idiomas indianos (Telugu, Kannada, Bengali, Tamil, Malayalam, Marathi, Gujarati e Hindi) ao modelo Chatterbox-Multilingual TTS usando adaptadores LoRA e extensão de tokenizador. Esta abordagem treinou apenas 1,4% dos parâmetros do modelo, sem a necessidade de engenharia de fonemas complexa para cada idioma.

43
ARTICLEDEV.to AI·2d atrás

Day 49: The Unseen Layers of Building Health AI for 22+ Indian Languages

Os LLMs atuais, como o GPT-4, falham em lidar com consultas médicas detalhadas em idiomas indianos devido a um viés fundamental nos seus dados de treino, fortemente orientados para o inglês. A GoDavaii visa preencher esta lacuna, desenvolvendo IA de Saúde avançada para mais de 22 idiomas indianos, focando em tornar o conhecimento médico contextualmente relevante e acessível em diversos contextos linguísticos.

34
RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Este estudo classifica o sentimento em avaliações em inglês e bengali de aplicativos bancários móveis governamentais de Bangladesh, utilizando uma abordagem de rotulagem híbrida para 5.652 avaliações. Os modelos tradicionais de aprendizado de máquina, como Random Forest e Linear SVM, superaram significativamente o XLM-RoBERTa ajustado para esta tarefa específica.

31
ARTICLEDEV.to AI·3d atrás

Day 48 of GoDavaii: Building Health AI for 22 Indian Languages - Why It's Harder Than You Think

O artigo descreve os desafios de construir uma IA de saúde que compreenda as nuances de 22 idiomas indianos, destacando a complexidade de interpretar frases simples em diferentes contextos culturais. A equipe da GoDavaii, no dia 48 desde o lançamento, enfrenta a imensa tarefa de desenvolver uma IA que transcenda as soluções predominantemente em inglês.

30
RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta pesquisa introduz uma estrutura de ajuste fino (fine-tuning) eficiente em dados para ensinar modelos de raciocínio a realizar code-switching de forma eficaz em tarefas de raciocínio. O objetivo é identificar comportamentos de code-switching benéficos, analisando sistematicamente dados de modelos e tarefas diversas.

29
ARTICLEDEV.to AI·19/04/2026

Tại sao OCR đa ngôn ngữ thất bại dù đã mở rộng character set

Muitas equipes de OCR presumem que expandir o conjunto de caracteres melhora automaticamente o reconhecimento, mas este artigo revela que essa é uma visão simplificada. O sucesso do OCR multilíngue depende criticamente do treinamento com dados que reflitam formatos de glifos reais, variações de fontes, distribuição de idiomas e layouts de documentos.

28
RESEARCHarXiv CS.CL·14/04/2026

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Este estudo investiga a melhoria da detecção de discurso de ódio translingual utilizando dados web em larga escala e anotações sintéticas baseadas em LLMs. A pesquisa demonstra que o pré-treinamento contínuo de modelos BERT em dados da web e o ajuste fino com rótulos sintéticos gerados por um conjunto de LLMs aumentam significativamente o desempenho, especialmente em configurações de recursos limitados.

28
ARTICLEDEV.to AI·28d atrás

The Aunty Test - what Malayalam-speaking patients see when they ask Health AI in their own language

Este conteúdo destaca a falha da IA de Saúde centrada no inglês em compreender e responder com precisão a consultas médicas em idiomas não-ingleses, como o malaiala. Apresenta o GoDavaii como uma IA capaz de raciocinar nativamente em 22 idiomas indianos, abordando uma lacuna crítica na acessibilidade aos cuidados de saúde para mil milhões de falantes não-ingleses.

27
ARTICLEDEV.to AI·02/05/2026

The Aunty Test - what Marathi-speaking patients see when they ask Health AI in their own language

Este artigo destaca como a maioria das IAs de saúde, construídas em primeiro lugar em inglês, falha ao lidar com consultas médicas em idiomas locais como o marata. Ele aponta a necessidade de IAs que raciocinem nativamente em múltiplos idiomas para fornecer orientações precisas, ao contrário das abordagens de tradução ou "verniz localizado".

27
RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Este artigo introduz uma estrutura de avaliação informada pelo ILR para analisar a consistência de respostas cross-linguais do Claude (Sonnet 4.6) em seis idiomas. A análise quantitativa e qualitativa revela variações como diferenças de comprimento nas respostas e divergência superficial em clusters criativos entre os idiomas.

27
RESEARCHarXiv CS.CL·26d atrás

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Modelos de linguagem grandes multilíngues (MLLMs) frequentemente exibem comportamento inconsistente em relação à identidade cultural entre idiomas. Pesquisadores introduzem uma nova métrica, Singleton Fleiss's "k_S", e um framework de alinhamento consensual, C-3PO, para mitigar essas inconsistências, alcançando melhorias significativas.

27