RESEARCHarXiv CS.CL·8d atrás
CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards
Este artigo propõe CSRP, um framework de três estágios para correção de erros gramaticais em chinês (CGEC) usando Modelos de Linguagem Grandes (LLMs). O CSRP aborda os desafios de modelos genéricos e otimização de métricas com pré-treinamento contínuo, SFT Chain-of-Thought e otimização de política com recompensas que penalizam edições desnecessárias, alcançando desempenho superior no benchmark NACGEC.
27