← heapsort-ai

Low-resource languages

9 items

RESEARCHarXiv CS.CL·vor 20Std

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Diese Studie stellt die erste Anwendung eines Retrieval Augmented Generation (RAG)-Modells für die Beantwortung juristischer Fragen in Nepali vor und adressiert die Datenknappheit in ressourcenarmen Sprachen. Durch die Verwendung von BM25 auf segmentierten Dokumenten erreichte die RAG-Pipeline eine hohe Präzision und Wahrheitsgenauigkeit, was ihre Wirksamkeit im nepalesischen Rechtsbereich demonstriert.

54
RESEARCHarXiv CS.CL·4/22/2026

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Dieses Papier stellt einen neuen In-Context-Lernansatz für die maschinelle Übersetzung aus dem Koptischen ins Englische für ressourcenarme Sprachen vor, der Eingaben mit syntaktischen Informationen aus Universal Dependencies-Parses erweitert. Die Kombination dieser syntaktischen Daten mit wörterbuchbasierten Glossaren erzielt signifikante Leistungssteigerungen und erreicht den aktuellen Stand der Technik.

27
RESEARCHarXiv CS.CL·4/9/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

27
RESEARCHarXiv CS.CL·4/24/2026

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Dieses Papier stellt AFRILANGDICT, eine Sammlung afrikanisch-englischer Wörterbucheinträge, und AFRILANGEDU, einen Datensatz, vor. Diese Ressourcen werden verwendet, um KI-Modelle namens AFRILANGTUTOR für den Spracherwerb in ressourcenarmen afrikanischen Sprachen zu trainieren und die Lücke bei KI-Systemen für lokale Sprachen auf dem afrikanischen Kontinent zu schließen.

27
RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

27
RESEARCHarXiv CS.CL·vor 20T

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Die Verarbeitung natürlicher Sprache (NLP) mit geringen Ressourcen hat ein explosives Wachstum erfahren, doch ihre Bewertung steht vor einer kritischen Herausforderung: die Knappheit soziolinguistischer Expertise, die zur Bewertung komplexer generativer Systeme erforderlich ist. Dies führt zum "Annotations-Knappheitsparadoxon", bei dem die technische Kapazität zur Skalierung von Modellen die souveräne menschliche Infrastruktur für eine authentische Bewertung übertrifft.

27
RESEARCHarXiv CS.CL·vor 12T

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Diese Forschung befasst sich mit der Stabilitäts-Expressivitäts-Lücke in gesprochenen Sprachmodellen (SLMs) für ressourcenarme Sprachen, verursacht durch die intensive Nutzung synthetischer Daten. Während synthetische Daten die phonetische Genauigkeit verbessern, beeinträchtigen sie die prosodische Ausdrucksfähigkeit, ein Phänomen, das als Synthetische Erosion bezeichnet wird. Das Papier stellt Selbstausrichtungsrahmen vor, um die Ausdrucksfähigkeit wiederherzustellen.

27
RESEARCHarXiv CS.CL·4/6/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27