heapsort
RESEARCH27

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

arXiv CS.CL·7 mai 2026

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

Lire l'original