RESEARCH27
Reinforcing privacy reasoning in LLMs via normative simulacra from fiction
arXiv CS.LG·24 de abril de 2026
Este artículo propone un nuevo método para mejorar el razonamiento de privacidad en LLMs extrayendo simulacros normativos de novelas de ficción. El enfoque implica el ajuste fino de LLMs mediante aprendizaje supervisado seguido de aprendizaje por refuerzo GRPO, utilizando una función de recompensa compuesta para alinear las prácticas de manejo de información con las expectativas de privacidad del usuario.
Leer original ↗