multi-hop-qa — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·23/04/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 est un cadre qui améliore les LLMs avec un processus itératif de Recherche-Affinement-Raisonnement entraîné par apprentissage par renforcement. Il résout les défis du RAG en distillant des faits pertinents à partir de documents récupérés, améliorant l'efficacité et la précision du QA multi-saut complexe.

multi-hop-qa LLMs reinforcement learning RAG