RESEARCH27

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

arXiv CS.CL·11. Mai 2026

Diese Arbeit stellt TajPersLexon vor, eine Tadschikisch-Persische parallele lexikalische Ressource mit 40.112 Wortpaaren für Cross-Script NLP in ressourcenarmen Umgebungen. Es werden hybride, neuronale und Retrieval-Modelle bewertet, wobei neuronale und Retrieval-Baselines eine hohe Genauigkeit (98-99%) zeigen und das hybride Modell einen günstigen Kompromiss zwischen Genauigkeit und Effizienz (96,4%) bei der OCR-Nachkorrektur bietet.

Lexical resource Cross-script NLP Hybrid model Low-resource NLP

Original lesen ↗