Low-resource languages

9 items

RESEARCHarXiv CS.CL·22h atrás

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Este estudo apresenta a primeira aplicação de um modelo de Geração Aumentada por Recuperação (RAG) para resposta a perguntas jurídicas em nepalês, abordando a escassez de dados em idiomas com poucos recursos. Utilizando BM25 em documentos segmentados, o pipeline RAG alcançou alta precisão e veracidade, demonstrando sua eficácia no domínio jurídico nepalês.

Retrieval Augmented Generation Legal AI Question Answering Natural Language Processing

RESEARCHarXiv CS.CL·07/05/2026

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Nsanku é um benchmark sistemático que avalia o desempenho de tradução zero-shot de 19 LLMs para 43 línguas ganesas. Ele utiliza frases da Bíblia e métricas como BLEU e chrF, mostrando que gemini-2.5-flash alcança a maior pontuação média.

LLMs Benchmarking machine translation Low-resource languages

RESEARCHarXiv CS.CL·22/04/2026

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Este artigo propõe uma nova abordagem de aprendizado em contexto para tradução automática de copta para inglês em baixa-recurso, utilizando aumento sintático de análises de Dependências Universais. Embora a informação sintática sozinha seja menos eficaz que glossários baseados em dicionário, a combinação de ambos resulta em ganhos significativos e alcança o estado da arte.

universal-dependencies Natural Language Processing machine translation in-context learning

RESEARCHarXiv CS.CL·09/04/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMs Turkic languages cross-lingual transfer Parameter-efficient adaptation

RESEARCHarXiv CS.CL·24/04/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Este artigo introduz AFRILANGDICT, uma coleção de dicionários de línguas africanas-inglês, e AFRILANGEDU, um dataset, para treinar modelos de IA, chamados AFRILANGTUTOR. O objetivo é desenvolver tutores de idiomas assistidos por IA para línguas africanas de baixos recursos, abordando a lacuna de sistemas de IA para idiomas locais no continente africano.

LLMs language education Africa Low-resource languages

RESEARCHarXiv CS.CL·29d atrás

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D é um novo benchmark de dados de mídia social bengali para diagnosticar o comportamento de LLMs na anotação de conjuntos fechados. A pesquisa revela um fenômeno de "colapso de rótulos induzido por instruções", onde os LLMs preferem rótulos padrão, subdetectando categorias minoritárias.

LLMs Natural Language Processing Data Annotation Benchmarks

RESEARCHarXiv CS.CL·20d atrás

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

O processamento de linguagem natural (PLN) de baixo recurso tem crescido exponencialmente, mas sua avaliação enfrenta um desafio crítico: a escassez de expertise sociolinguística necessária para avaliar sistemas generativos complexos. Isso gera o "Paradoxo da Escassez de Anotação", onde a capacidade técnica de escalar modelos supera a infraestrutura humana necessária para uma avaliação autêntica.

machine learning NLP Low-resource languages AI evaluation

RESEARCHarXiv CS.CL·12d atrás

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Esta pesquisa aborda a Lacuna de Estabilidade-Expressividade em Modelos de Linguagem Falada (SLMs) para idiomas com poucos recursos, causada pelo uso extensivo de dados sintéticos. Enquanto dados sintéticos melhoram a precisão fonética, eles degradam a expressividade prosódica, um fenômeno chamado Erosão Sintética. O artigo introduz estruturas de autoalinhamento para recuperar a expressividade.

synthetic data speech synthesis spoken language models Low-resource languages

RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation