RESEARCH27

Document Optimization for Black-Box Retrieval via Reinforcement Learning

arXiv CS.CL·8 de abril de 2026

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

language modelsVision-Language ModelsReinforcement Learningdocument optimizationinformation-retrieval

Ler original ↗