RESEARCH27

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

arXiv CS.CL·7. Mai 2026

FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.

LLMs reinforcement learning AI algorithms Reasoning unsupervised learning

Original lesen ↗