RESEARCHarXiv CS.CL·23/04/2026
OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models
OThink-SRR1 é uma estrutura que aprimora LLMs com um processo iterativo de Busca-Refinamento-Raciocínio treinado por aprendizado por reforço. Ele resolve os desafios do RAG ao destilar fatos relevantes de documentos recuperados, melhorando a eficiência e a precisão em QA multi-hop complexo.
28