RESEARCH27
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
arXiv CS.LG·2 juin 2026
Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.
Lire l'original ↗