Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs
FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.