RESEARCH27

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

arXiv CS.CL·2 de junho de 2026

Este artigo propõe CSRP, um framework de três estágios para correção de erros gramaticais em chinês (CGEC) usando Modelos de Linguagem Grandes (LLMs). O CSRP aborda os desafios de modelos genéricos e otimização de métricas com pré-treinamento contínuo, SFT Chain-of-Thought e otimização de política com recompensas que penalizam edições desnecessárias, alcançando desempenho superior no benchmark NACGEC.

reinforcement learning Grammar Correction Natural Language Processing AI research LLM

Ler original ↗