RESEARCH27
Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria
arXiv CS.AI·12 mai 2026
Cet article de recherche introduit Auto-Rubric as Reward (ARR), un nouveau cadre pour aligner les modèles génératifs multimodaux avec les préférences humaines. ARR externalise les connaissances de préférence implicites d'un VLM en rubriques explicites et spécifiques à l'invite, décomposant le jugement humain en dimensions de qualité vérifiables indépendamment pour surmonter les limites des approches RLHF traditionnelles.
Lire l'original ↗