R1-Searcher: Incentivizing the Search Capability in LLMs via ReinforcementLearning
L'article traite de l'amélioration de la capacité de recherche des grands modèles linguistiques (LLM) par l'application de l'apprentissage par renforcement. Il propose une méthode pour inciter au comportement de recherche dans les LLM.