RESEARCHarXiv CS.CL·il y a 29j
TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP
Cette recherche présente TajPersLexon, une ressource lexicale parallèle tadjik-persan de 40 112 paires de mots pour le PNL inter-scripts dans des environnements à faibles ressources. Elle évalue des modèles hybrides, neuronaux et de récupération, démontrant une haute précision pour les bases neuronales et de récupération (98-99%) et un compromis favorable précision-efficacité pour le modèle hybride (96,4%) dans la post-correction OCR.
27