heapsort
RESEARCH27

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

arXiv CS.CL·11 de maio de 2026

Esta pesquisa apresenta TajPersLexon, um recurso lexical paralelo Tajique-Persa com 40.112 pares de palavras para PNL inter-escrita em contextos de poucos recursos. Avalia modelos híbridos, neurais e de recuperação, mostrando alta precisão para as linhas de base neurais e de recuperação (98-99%) e um equilíbrio favorável entre precisão e eficiência para o modelo híbrido (96,4%) na pós-correção de OCR.

Ler original