reward learning — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·28d atrás

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artigo de pesquisa apresenta o Auto-Rubric as Reward (ARR), uma nova estrutura para alinhar modelos generativos multimodais com as preferências humanas. O ARR transforma o conhecimento implícito de preferência de um VLM em rubricas explícitas e específicas do prompt, decompondo o julgamento humano em dimensões de qualidade verificáveis para superar as limitações das abordagens tradicionais de RLHF.

multimodal models AI alignment reward learning Machine learning research