multi-hop-qa — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·23/4/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 es un marco que mejora los LLMs con un proceso iterativo de Búsqueda-Refinamiento-Razonamiento entrenado mediante aprendizaje por refuerzo. Aborda los desafíos de RAG destilando hechos relevantes de documentos recuperados, mejorando la eficiencia y precisión en QA multi-salto complejo.

multi-hop-qa LLMs reinforcement learning RAG