RESEARCH27
Learning Transferable Latent User Preferences for Human-Aligned Decision Making
arXiv CS.AI·14 mai 2026
Cet article présente CLIPR, un cadre permettant aux Grands Modèles de Langage (LLMs) de prendre des décisions alignées sur les préférences humaines en inférant celles-ci à partir d'interactions limitées. Il s'attaque aux difficultés des LLMs à produire des solutions alignées et aux limites des approches existantes pour généraliser les préférences.
Lire l'original ↗