← heapsort-ai

AI algorithms

6 items

RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

27
RESEARCHarXiv CS.CL·hace 22d

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Esta investigación presenta OP-Mix, un nuevo algoritmo para la mezcla eficiente de datos a lo largo de todo el ciclo de vida del entrenamiento de modelos de lenguaje. Aborda el desafío de combinar diversas fuentes de datos para el preentrenamiento, el aprendizaje continuo y la adaptación, proponiendo una solución unificada de toma de decisiones en línea.

27
RESEARCHarXiv CS.AI·hace 8d

Structure-Induced Information for Rerooting Levin Tree Search

Este artículo introduce nuevos diseños de "rerooter" para el algoritmo $\sqrt{\text{LTS}}$, abordando las limitaciones de escalabilidad de la generación explícita de subobjetivos en la búsqueda de árboles de políticas basada en subobjetivos. Estos diseños descomponen implícitamente los problemas, permitiendo una asignación escalable del esfuerzo de búsqueda.

27