← heapsort-ai

Low-resource languages

9 items

RESEARCHarXiv CS.CL·il y a 20h

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Cette étude présente la première application d'un modèle de Génération Augmentée par Récupération (RAG) pour la réponse aux questions juridiques en népalais, abordant la rareté des données dans les langues à faibles ressources. En utilisant BM25 sur des documents segmentés, le pipeline RAG a atteint une grande précision et véracité, démontrant son efficacité dans le domaine juridique népalais.

54
RESEARCHarXiv CS.CL·22/04/2026

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Cet article propose une nouvelle approche d'apprentissage en contexte pour la traduction automatique du copte vers l'anglais à faibles ressources, en augmentant les entrées avec des informations syntaxiques issues des analyses de Dépendances Universelles. La combinaison de ces données syntaxiques avec des glossaires basés sur des dictionnaires permet des gains significatifs et établit un nouvel état de l'art.

27
RESEARCHarXiv CS.CL·09/04/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

27
RESEARCHarXiv CS.CL·24/04/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Cet article présente AFRILANGDICT, une collection d'entrées de dictionnaire de langues africaines-anglais, et AFRILANGEDU, un ensemble de données. Ces ressources sont utilisées pour entraîner des modèles d'IA, appelés AFRILANGTUTOR, pour le tutorat linguistique dans les langues africaines à faibles ressources, comblant ainsi le manque de systèmes d'IA pour les langues locales sur le continent africain.

27
RESEARCHarXiv CS.CL·il y a 29j

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

27
RESEARCHarXiv CS.CL·il y a 20j

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Le traitement du langage naturel (TLN) à faibles ressources a connu une croissance explosive, mais son évaluation fait face à un défi critique: la rareté de l'expertise sociolinguistique nécessaire pour évaluer les systèmes génératifs complexes. Cela crée le "Paradoxe de la Rareté de l'Annotation", où la capacité technique à développer des modèles dépasse l'infrastructure humaine requise pour une évaluation authentique.

27
RESEARCHarXiv CS.CL·il y a 12j

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Cette recherche aborde l'écart Stabilité-Expressivité dans les Modèles de Langage Parlé (SLM) pour les langues à faibles ressources, causé par l'utilisation intensive de données synthétiques. Bien que les données synthétiques améliorent la précision phonétique, elles dégradent l'expressivité prosodique, un phénomène appelé Érosion Synthétique. L'article introduit des cadres d'auto-alignement pour récupérer l'expressivité.

27
RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27