← heapsort-ai

AI algorithms

6 items

RESEARCHarXiv CS.CL·5/7/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA ist ein neuartiger Reinforcement-Learning-Algorithmus, der LLMs für unbeaufsichtigtes Denken verbessert und die mangelnde Anpassungsfähigkeit bestehender Methoden adressiert. Er nutzt Free Energy-Driven Reward (FER), um Konsens und Exploration auszugleichen, sowie Adaptive Advantage Shaping (AAS), um Lernsignale anzupassen. FREIA übertrifft unbeaufsichtigte Baselines in verschiedenen Denkaufgaben, insbesondere im mathematischen Denken.

27
RESEARCHarXiv CS.CL·vor 22T

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Diese Forschung stellt OP-Mix vor, einen neuartigen Algorithmus zur effizienten Datenmischung über den gesamten Lebenszyklus des Sprachmodelltrainings. Er adressiert die Herausforderung der Kombination verschiedener Datenquellen für Vortraining, kontinuierliches Lernen und Anpassung und schlägt eine einheitliche Online-Entscheidungslösung vor.

27