RESEARCH27

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

arXiv CS.AI·12 mai 2026

Cet article de recherche introduit Auto-Rubric as Reward (ARR), un nouveau cadre pour aligner les modèles génératifs multimodaux avec les préférences humaines. ARR externalise les connaissances de préférence implicites d'un VLM en rubriques explicites et spécifiques à l'invite, décomposant le jugement humain en dimensions de qualité vérifiables indépendamment pour surmonter les limites des approches RLHF traditionnelles.

multimodal models AI alignment reward learning Machine learning research Generative AI

Lire l'original ↗