RESEARCHarXiv CS.LG·hace 7d
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
Investigadores proponen Demo2Reward, una técnica de adaptación en tiempo de prueba para optimizar modelos de recompensa de Visión-Lenguaje (VLMs) en robótica. Utiliza pocas demostraciones para reducir falsos positivos, preservando los verdaderos positivos, sin requerir entrenamiento adicional del modelo.
27