Low-resource languages

9 items

RESEARCHarXiv CS.CL·hace 20h

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Este estudio presenta la primera aplicación de un modelo de Generación Aumentada por Recuperación (RAG) para la respuesta a preguntas legales en nepalí, abordando la escasez de datos en idiomas de bajos recursos. Utilizando BM25 en documentos fragmentados, el pipeline RAG logró alta precisión y veracidad, demostrando su eficacia en el dominio legal nepalí.

Retrieval Augmented Generation Legal AI Question Answering natural language processing

RESEARCHarXiv CS.CL·7/5/2026

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Nsanku es un benchmark sistemático que evalúa el rendimiento de traducción zero-shot de 19 LLM en 43 idiomas ghaneses. Emplea oraciones bíblicas y métricas como BLEU y chrF, y gemini-2.5-flash obtiene la puntuación media más alta.

LLMs Benchmarking machine translation Low-resource languages

RESEARCHarXiv CS.CL·22/4/2026

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Este artículo presenta un enfoque novedoso de aprendizaje en contexto para la traducción automática de copto a inglés de bajos recursos, aumentando las entradas con información sintáctica de análisis de Dependencias Universales. Aunque la información sintáctica por sí sola es menos útil que los glosarios basados en diccionarios, su combinación mejora significativamente el rendimiento y logra resultados de vanguardia.

universal-dependencies natural language processing machine translation in-context learning

RESEARCHarXiv CS.CL·9/4/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMs Turkic languages cross-lingual transfer Parameter-efficient adaptation

RESEARCHarXiv CS.CL·24/4/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Este artículo presenta AFRILANGDICT, una colección de entradas de diccionario de idiomas africanos-inglés, y AFRILANGEDU, un conjunto de datos. Estos recursos se utilizan para entrenar modelos de IA, denominados AFRILANGTUTOR, para la tutoría de idiomas en lenguas africanas con pocos recursos, abordando la escasez de sistemas de IA para idiomas locales en el continente africano.

LLMs language education Africa Low-resource languages

RESEARCHarXiv CS.CL·hace 29d

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D es un nuevo benchmark de datos de redes sociales bengalíes para diagnosticar el comportamiento de los LLM en la anotación de conjuntos cerrados. La investigación revela un fenómeno de "colapso de etiquetas inducido por instrucciones", donde los LLM prefieren sistemáticamente etiquetas de respaldo, subdetectando categorías minoritarias.

LLMs natural language processing Data Annotation Benchmarks

RESEARCHarXiv CS.CL·hace 20d

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

El procesamiento del lenguaje natural (PLN) de bajos recursos ha experimentado un crecimiento explosivo, pero su evaluación enfrenta un desafío crítico: la escasez de experiencia sociolingüística necesaria para evaluar sistemas generativos complejos. Esto da lugar a la "Paradoja de la Escasez de Anotaciones", donde la capacidad técnica para escalar modelos supera la infraestructura humana requerida para una evaluación auténtica.

machine learning NLP Low-resource languages AI evaluation

RESEARCHarXiv CS.CL·hace 12d

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Esta investigación aborda la Brecha de Estabilidad-Expresividad en los Modelos de Lenguaje Hablado (SLM) para idiomas de bajos recursos, causada por el uso extensivo de datos sintéticos. Aunque los datos sintéticos mejoran la precisión fonética, degradan la expresividad prosódica, un fenómeno denominado Erosión Sintética. El artículo presenta marcos de autoalineación para recuperar la expresividad.

synthetic data speech synthesis spoken language models Low-resource languages

RESEARCHarXiv CS.CL·6/4/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation