RESEARCHarXiv CS.CL·23/04/2026
OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models
OThink-SRR1 est un cadre qui améliore les LLMs avec un processus itératif de Recherche-Affinement-Raisonnement entraîné par apprentissage par renforcement. Il résout les défis du RAG en distillant des faits pertinents à partir de documents récupérés, améliorant l'efficacité et la précision du QA multi-saut complexe.
28