Low-resource languages

9 items

RESEARCHarXiv CS.CL·vor 20Std

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Diese Studie stellt die erste Anwendung eines Retrieval Augmented Generation (RAG)-Modells für die Beantwortung juristischer Fragen in Nepali vor und adressiert die Datenknappheit in ressourcenarmen Sprachen. Durch die Verwendung von BM25 auf segmentierten Dokumenten erreichte die RAG-Pipeline eine hohe Präzision und Wahrheitsgenauigkeit, was ihre Wirksamkeit im nepalesischen Rechtsbereich demonstriert.

Retrieval Augmented Generation Legal AI Question Answering natural language processing

RESEARCHarXiv CS.CL·5/7/2026

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Nsanku ist ein systematischer Benchmark zur Bewertung der Zero-Shot-Maschinenübersetzungsleistung von 19 LLMs für 43 ghanaische Sprachen. Er verwendet Bibelsätze und Metriken wie BLEU und chrF, wobei gemini-2.5-flash die höchste Durchschnittspunktzahl erreicht.

LLMs Benchmarking machine translation Low-resource languages

RESEARCHarXiv CS.CL·4/22/2026

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Dieses Papier stellt einen neuen In-Context-Lernansatz für die maschinelle Übersetzung aus dem Koptischen ins Englische für ressourcenarme Sprachen vor, der Eingaben mit syntaktischen Informationen aus Universal Dependencies-Parses erweitert. Die Kombination dieser syntaktischen Daten mit wörterbuchbasierten Glossaren erzielt signifikante Leistungssteigerungen und erreicht den aktuellen Stand der Technik.

universal-dependencies natural language processing machine translation in-context learning

RESEARCHarXiv CS.CL·4/9/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMs Turkic languages cross-lingual transfer Parameter-efficient adaptation

RESEARCHarXiv CS.CL·4/24/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Dieses Papier stellt AFRILANGDICT, eine Sammlung afrikanisch-englischer Wörterbucheinträge, und AFRILANGEDU, einen Datensatz, vor. Diese Ressourcen werden verwendet, um KI-Modelle namens AFRILANGTUTOR für den Spracherwerb in ressourcenarmen afrikanischen Sprachen zu trainieren und die Lücke bei KI-Systemen für lokale Sprachen auf dem afrikanischen Kontinent zu schließen.

LLMs language education Africa Low-resource languages

RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

LLMs natural language processing Data Annotation Benchmarks

RESEARCHarXiv CS.CL·vor 20T

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Die Verarbeitung natürlicher Sprache (NLP) mit geringen Ressourcen hat ein explosives Wachstum erfahren, doch ihre Bewertung steht vor einer kritischen Herausforderung: die Knappheit soziolinguistischer Expertise, die zur Bewertung komplexer generativer Systeme erforderlich ist. Dies führt zum "Annotations-Knappheitsparadoxon", bei dem die technische Kapazität zur Skalierung von Modellen die souveräne menschliche Infrastruktur für eine authentische Bewertung übertrifft.

machine learning NLP Low-resource languages AI evaluation

RESEARCHarXiv CS.CL·vor 12T

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Diese Forschung befasst sich mit der Stabilitäts-Expressivitäts-Lücke in gesprochenen Sprachmodellen (SLMs) für ressourcenarme Sprachen, verursacht durch die intensive Nutzung synthetischer Daten. Während synthetische Daten die phonetische Genauigkeit verbessern, beeinträchtigen sie die prosodische Ausdrucksfähigkeit, ein Phänomen, das als Synthetische Erosion bezeichnet wird. Das Papier stellt Selbstausrichtungsrahmen vor, um die Ausdrucksfähigkeit wiederherzustellen.

synthetic data speech synthesis spoken language models Low-resource languages

RESEARCHarXiv CS.CL·4/6/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation