RESEARCHarXiv CS.AI·28d atrás
Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria
Este artigo de pesquisa apresenta o Auto-Rubric as Reward (ARR), uma nova estrutura para alinhar modelos generativos multimodais com as preferências humanas. O ARR transforma o conhecimento implícito de preferência de um VLM em rubricas explícitas e específicas do prompt, decompondo o julgamento humano em dimensões de qualidade verificáveis para superar as limitações das abordagens tradicionais de RLHF.
27