RESEARCHarXiv CS.AI·27d atrás
Learning Transferable Latent User Preferences for Human-Aligned Decision Making
O artigo apresenta CLIPR, uma estrutura para Grandes Modelos de Linguagem (LLMs) que infere preferências latentes do usuário a partir de interações limitadas para decisões alinhadas a humanos. Ele aborda as dificuldades dos LLMs em produzir soluções alinhadas e as limitações das abordagens existentes na generalização de preferências.
27