RESEARCHarXiv CS.LG·8d atrás
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
Pesquisadores propõem Demo2Reward, uma técnica de adaptação em tempo de teste para otimizar modelos de recompensa de Visão-Linguagem (VLMs) em robótica. Ela utiliza poucas demonstrações para reduzir falsos positivos, preservando verdadeiros positivos, sem exigir treinamento adicional do modelo.
27