RESEARCH27

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

arXiv CS.CL·7 de mayo de 2026

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

LLMs reinforcement learning AI algorithms Reasoning unsupervised learning

Leer original ↗