RESEARCH27
Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs
arXiv CS.CL·7 de mayo de 2026
FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.
Leer original ↗