← heapsort-ai

Grammar Correction

1 items

RESEARCHarXiv CS.CL·vor 8T

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

27