RESEARCH27
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
arXiv CS.LG·2. Juni 2026
Forscher schlagen Demo2Reward vor, eine Testzeit-Anpassungstechnik zur Optimierung von Vision-Sprachmodell (VLM)-Belohnungsmodellen in der Robotik. Sie verwendet wenige Demonstrationen, um Fehlalarme zu reduzieren und gleichzeitig Echt-Positive zu erhalten, ohne zusätzliches Modelltraining zu erfordern.
Original lesen ↗