RESEARCH27

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

arXiv CS.LG·2 juin 2026

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

Vision-Language Models reinforcement learning Prompt Optimization robotics AI Research

Lire l'original ↗