multi-hop-qa — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·23/04/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 é uma estrutura que aprimora LLMs com um processo iterativo de Busca-Refinamento-Raciocínio treinado por aprendizado por reforço. Ele resolve os desafios do RAG ao destilar fatos relevantes de documentos recuperados, melhorando a eficiência e a precisão em QA multi-hop complexo.

multi-hop-qa LLMs reinforcement learning RAG