reward learning — artículos, noticias e investigación de IA

RESEARCHarXiv CS.AI·hace 28d

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artículo de investigación presenta Auto-Rubric as Reward (ARR), un marco novedoso para alinear modelos generativos multimodales con las preferencias humanas. ARR externaliza el conocimiento de preferencias implícitas de un VLM en rúbricas explícitas y específicas del prompt, descomponiendo el juicio humano en dimensiones de calidad verificables de forma independiente para superar las limitaciones de los enfoques tradicionales de RLHF.

multimodal models AI alignment reward learning Machine learning research