heapsort
RESEARCH27

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

arXiv CS.LG·2 de junho de 2026

Pesquisadores propõem Demo2Reward, uma técnica de adaptação em tempo de teste para otimizar modelos de recompensa de Visão-Linguagem (VLMs) em robótica. Ela utiliza poucas demonstrações para reduzir falsos positivos, preservando verdadeiros positivos, sem exigir treinamento adicional do modelo.

Ler original