RESEARCH27

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

arXiv CS.AI·12 de maio de 2026

Este artigo de pesquisa apresenta o Auto-Rubric as Reward (ARR), uma nova estrutura para alinhar modelos generativos multimodais com as preferências humanas. O ARR transforma o conhecimento implícito de preferência de um VLM em rubricas explícitas e específicas do prompt, decompondo o julgamento humano em dimensões de qualidade verificáveis para superar as limitações das abordagens tradicionais de RLHF.

multimodal models AI alignment reward learning Machine learning research Generative AI

Ler original ↗