RESEARCH27
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
arXiv CS.LG·2 de junio de 2026
Investigadores proponen Demo2Reward, una técnica de adaptación en tiempo de prueba para optimizar modelos de recompensa de Visión-Lenguaje (VLMs) en robótica. Utiliza pocas demostraciones para reducir falsos positivos, preservando los verdaderos positivos, sin requerir entrenamiento adicional del modelo.
Leer original ↗