heapsort
RESEARCH27

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

arXiv CS.AI·12 de mayo de 2026

Este artículo de investigación presenta Auto-Rubric as Reward (ARR), un marco novedoso para alinear modelos generativos multimodales con las preferencias humanas. ARR externaliza el conocimiento de preferencias implícitas de un VLM en rúbricas explícitas y específicas del prompt, descomponiendo el juicio humano en dimensiones de calidad verificables de forma independiente para superar las limitaciones de los enfoques tradicionales de RLHF.

Leer original