heapsort
RESEARCH27

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

arXiv CS.AI·14 mai 2026

Cet article présente CLIPR, un cadre permettant aux Grands Modèles de Langage (LLMs) de prendre des décisions alignées sur les préférences humaines en inférant celles-ci à partir d'interactions limitées. Il s'attaque aux difficultés des LLMs à produire des solutions alignées et aux limites des approches existantes pour généraliser les préférences.

Lire l'original