RESEARCHarXiv CS.LG·vor 7T
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
Forscher schlagen Demo2Reward vor, eine Testzeit-Anpassungstechnik zur Optimierung von Vision-Sprachmodell (VLM)-Belohnungsmodellen in der Robotik. Sie verwendet wenige Demonstrationen, um Fehlalarme zu reduzieren und gleichzeitig Echt-Positive zu erhalten, ohne zusätzliches Modelltraining zu erfordern.
27