RESEARCH27
TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP
arXiv CS.CL·11 de mayo de 2026
Este trabajo introduce TajPersLexon, un recurso léxico paralelo tayiko-persa con 40.112 pares de palabras para PNL interescritura en entornos de bajos recursos. Evalúa modelos híbridos, neuronales y de recuperación, demostrando una alta precisión para las bases neuronales y de recuperación (98-99%) y un equilibrio favorable entre precisión y eficiencia para el modelo híbrido (96,4%) en la post-corrección de OCR.
Leer original ↗