AI algorithms

6 items

RESEARCHarXiv CS.AI·il y a 1j

DiBS: Diffusion-Informed Branch Selection

L'article présente DiBS, une nouvelle approche guidée par un modèle de diffusion pour la sélection de branches dans la résolution de Sudoku, un problème de satisfaction de contraintes. Il améliore les solveurs symboliques en utilisant un modèle de diffusion pour guider l'ordonnancement des branches, assurant la complétude tout en atténuant les problèmes de recherche à longue traîne.

branch selection Diffusion Models constraint satisfaction Sudoku

RESEARCHDEV.to AI·01/05/2026

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

Ce contenu présente Deep Dyna-Q, une approche qui intègre la planification pour l'apprentissage des politiques de dialogue dans les systèmes de conversation basés sur l'IA. L'objectif est d'optimiser le processus d'achèvement des tâches via l'interaction dialoguée avec l'IA.

reinforcement learning Natural Language Processing AI algorithms dialogue systems

RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA est un nouvel algorithme d'apprentissage par renforcement qui améliore les LLM pour le raisonnement non supervisé, en s'attaquant au manque d'adaptabilité des méthodes existantes. Il utilise la Récompense Guidée par l'Énergie Libre (FER) pour équilibrer le consensus et l'exploration, et la Modélisation Adaptative de l'Avantage (AAS) pour ajuster les signaux d'apprentissage. FREIA surpasse les méthodes non supervisées de base dans diverses tâches de raisonnement, notamment en mathématiques.

LLMs reinforcement learning AI algorithms Reasoning

RESEARCHarXiv CS.CL·il y a 22j

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Cette recherche présente OP-Mix, un nouvel algorithme pour le mélange efficace de données tout au long du cycle de vie de l'entraînement des modèles de langage. Il aborde le défi de combiner diverses sources de données pour le pré-entraînement, l'apprentissage continu et l'adaptation, proposant une solution unifiée de prise de décision en ligne.

language models learning data mixing machine learning

RESEARCHarXiv CS.AI·il y a 8j

Structure-Induced Information for Rerooting Levin Tree Search

Cet article présente de nouvelles conceptions de "rerooter" pour l'algorithme $\sqrt{\text{LTS}}$, résolvant les limitations d'évolutivité de la génération explicite de sous-objectifs dans la recherche arborescente de politiques basée sur des sous-objectifs. Ces conceptions décomposent implicitement les problèmes, permettant une allocation évolutive de l'effort de recherche.

policy search Optimization tree search machine learning

RESEARCHDEV.to AI·12/04/2026

LightLDA: Big Topic Models on Modest Compute Clusters

LightLDA est un algorithme innovant permettant de construire efficacement de grands modèles thématiques, même sur des clusters de calcul modestes. Il optimise l'évolutivité et le traitement des grands volumes de données, rendant ainsi la modélisation thématique avancée plus accessible.

Scalability Topic Modeling distributed computing NLP