Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs
FREIA é um novo algoritmo de aprendizado por reforço que aprimora LLMs para raciocínio não supervisionado, abordando a falta de adaptação em métodos existentes. Ele utiliza Recompensa Impulsionada por Energia Livre (FER) para equilibrar consenso e exploração, e Modelagem Adaptativa de Vantagem (AAS) para ajustar sinais de aprendizado. FREIA supera as linhas de base não supervisionadas em tarefas de raciocínio, especialmente em matemática.