heapsort
RESEARCH27

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

arXiv CS.LG·2. Juni 2026

Forscher schlagen Demo2Reward vor, eine Testzeit-Anpassungstechnik zur Optimierung von Vision-Sprachmodell (VLM)-Belohnungsmodellen in der Robotik. Sie verwendet wenige Demonstrationen, um Fehlalarme zu reduzieren und gleichzeitig Echt-Positive zu erhalten, ohne zusätzliches Modelltraining zu erfordern.

Original lesen