RESEARCH27
TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP
arXiv CS.CL·11. Mai 2026
Diese Arbeit stellt TajPersLexon vor, eine Tadschikisch-Persische parallele lexikalische Ressource mit 40.112 Wortpaaren für Cross-Script NLP in ressourcenarmen Umgebungen. Es werden hybride, neuronale und Retrieval-Modelle bewertet, wobei neuronale und Retrieval-Baselines eine hohe Genauigkeit (98-99%) zeigen und das hybride Modell einen günstigen Kompromiss zwischen Genauigkeit und Effizienz (96,4%) bei der OCR-Nachkorrektur bietet.
Original lesen ↗