Cross-script — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 29T

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

Diese Arbeit stellt TajPersLexon vor, eine Tadschikisch-Persische parallele lexikalische Ressource mit 40.112 Wortpaaren für Cross-Script NLP in ressourcenarmen Umgebungen. Es werden hybride, neuronale und Retrieval-Modelle bewertet, wobei neuronale und Retrieval-Baselines eine hohe Genauigkeit (98-99%) zeigen und das hybride Modell einen günstigen Kompromiss zwischen Genauigkeit und Effizienz (96,4%) bei der OCR-Nachkorrektur bietet.

Lexical resource Cross-script NLP Hybrid model