heapsort
RESEARCH27

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

arXiv CS.LG·2 de junio de 2026

Investigadores proponen Demo2Reward, una técnica de adaptación en tiempo de prueba para optimizar modelos de recompensa de Visión-Lenguaje (VLMs) en robótica. Utiliza pocas demostraciones para reducir falsos positivos, preservando los verdaderos positivos, sin requerir entrenamiento adicional del modelo.

Leer original