← heapsort-ai

user preferences

1 items

RESEARCHarXiv CS.AI·il y a 26j

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Cet article présente CLIPR, un cadre permettant aux Grands Modèles de Langage (LLMs) de prendre des décisions alignées sur les préférences humaines en inférant celles-ci à partir d'interactions limitées. Il s'attaque aux difficultés des LLMs à produire des solutions alignées et aux limites des approches existantes pour généraliser les préférences.

27