RESEARCHarXiv CS.CL·vor 29T
TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP
Diese Arbeit stellt TajPersLexon vor, eine Tadschikisch-Persische parallele lexikalische Ressource mit 40.112 Wortpaaren für Cross-Script NLP in ressourcenarmen Umgebungen. Es werden hybride, neuronale und Retrieval-Modelle bewertet, wobei neuronale und Retrieval-Baselines eine hohe Genauigkeit (98-99%) zeigen und das hybride Modell einen günstigen Kompromiss zwischen Genauigkeit und Effizienz (96,4%) bei der OCR-Nachkorrektur bietet.
27