← heapsort-ai

reward learning

1 items

RESEARCHarXiv CS.AI·hace 28d

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artículo de investigación presenta Auto-Rubric as Reward (ARR), un marco novedoso para alinear modelos generativos multimodales con las preferencias humanas. ARR externaliza el conocimiento de preferencias implícitas de un VLM en rúbricas explícitas y específicas del prompt, descomponiendo el juicio humano en dimensiones de calidad verificables de forma independiente para superar las limitaciones de los enfoques tradicionales de RLHF.

27