RESEARCH28

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

arXiv CS.CL·23 de abril de 2026

OThink-SRR1 é uma estrutura que aprimora LLMs com um processo iterativo de Busca-Refinamento-Raciocínio treinado por aprendizado por reforço. Ele resolve os desafios do RAG ao destilar fatos relevantes de documentos recuperados, melhorando a eficiência e a precisão em QA multi-hop complexo.

multi-hop-qa LLMs reinforcement learning RAG Natural Language Processing

Ler original ↗