← heapsort-ai

Prompt Optimization

2 items

RESEARCHarXiv CS.LG·il y a 7j

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

27