← heapsort-ai

Low-resource languages

9 items

RESEARCHarXiv CS.CL·22h atrás

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Este estudo apresenta a primeira aplicação de um modelo de Geração Aumentada por Recuperação (RAG) para resposta a perguntas jurídicas em nepalês, abordando a escassez de dados em idiomas com poucos recursos. Utilizando BM25 em documentos segmentados, o pipeline RAG alcançou alta precisão e veracidade, demonstrando sua eficácia no domínio jurídico nepalês.

46
RESEARCHarXiv CS.CL·22/04/2026

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Este artigo propõe uma nova abordagem de aprendizado em contexto para tradução automática de copta para inglês em baixa-recurso, utilizando aumento sintático de análises de Dependências Universais. Embora a informação sintática sozinha seja menos eficaz que glossários baseados em dicionário, a combinação de ambos resulta em ganhos significativos e alcança o estado da arte.

27
RESEARCHarXiv CS.CL·09/04/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

27
RESEARCHarXiv CS.CL·24/04/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Este artigo introduz AFRILANGDICT, uma coleção de dicionários de línguas africanas-inglês, e AFRILANGEDU, um dataset, para treinar modelos de IA, chamados AFRILANGTUTOR. O objetivo é desenvolver tutores de idiomas assistidos por IA para línguas africanas de baixos recursos, abordando a lacuna de sistemas de IA para idiomas locais no continente africano.

27
RESEARCHarXiv CS.CL·29d atrás

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D é um novo benchmark de dados de mídia social bengali para diagnosticar o comportamento de LLMs na anotação de conjuntos fechados. A pesquisa revela um fenômeno de "colapso de rótulos induzido por instruções", onde os LLMs preferem rótulos padrão, subdetectando categorias minoritárias.

27
RESEARCHarXiv CS.CL·20d atrás

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

O processamento de linguagem natural (PLN) de baixo recurso tem crescido exponencialmente, mas sua avaliação enfrenta um desafio crítico: a escassez de expertise sociolinguística necessária para avaliar sistemas generativos complexos. Isso gera o "Paradoxo da Escassez de Anotação", onde a capacidade técnica de escalar modelos supera a infraestrutura humana necessária para uma avaliação autêntica.

27
RESEARCHarXiv CS.CL·12d atrás

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Esta pesquisa aborda a Lacuna de Estabilidade-Expressividade em Modelos de Linguagem Falada (SLMs) para idiomas com poucos recursos, causada pelo uso extensivo de dados sintéticos. Enquanto dados sintéticos melhoram a precisão fonética, eles degradam a expressividade prosódica, um fenômeno chamado Erosão Sintética. O artigo introduz estruturas de autoalinhamento para recuperar a expressividade.

27
RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27