← heapsort-ai

AI algorithms

6 items

RESEARCHarXiv CS.AI·il y a 1j

DiBS: Diffusion-Informed Branch Selection

L'article présente DiBS, une nouvelle approche guidée par un modèle de diffusion pour la sélection de branches dans la résolution de Sudoku, un problème de satisfaction de contraintes. Il améliore les solveurs symboliques en utilisant un modèle de diffusion pour guider l'ordonnancement des branches, assurant la complétude tout en atténuant les problèmes de recherche à longue traîne.

60
RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

27
RESEARCHarXiv CS.CL·il y a 22j

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Cette recherche présente OP-Mix, un nouvel algorithme pour le mélange efficace de données tout au long du cycle de vie de l'entraînement des modèles de langage. Il aborde le défi de combiner diverses sources de données pour le pré-entraînement, l'apprentissage continu et l'adaptation, proposant une solution unifiée de prise de décision en ligne.

27
RESEARCHarXiv CS.AI·il y a 8j

Structure-Induced Information for Rerooting Levin Tree Search

Cet article présente de nouvelles conceptions de "rerooter" pour l'algorithme $\sqrt{\text{LTS}}$, résolvant les limitations d'évolutivité de la génération explicite de sous-objectifs dans la recherche arborescente de politiques basée sur des sous-objectifs. Ces conceptions décomposent implicitement les problèmes, permettant une allocation évolutive de l'effort de recherche.

27