RESEARCH27
Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria
arXiv CS.AI·12 de maio de 2026
Este artigo de pesquisa apresenta o Auto-Rubric as Reward (ARR), uma nova estrutura para alinhar modelos generativos multimodais com as preferências humanas. O ARR transforma o conhecimento implícito de preferência de um VLM em rubricas explícitas e específicas do prompt, decompondo o julgamento humano em dimensões de qualidade verificáveis para superar as limitações das abordagens tradicionais de RLHF.
Ler original ↗