AI algorithms

6 items

RESEARCHarXiv CS.AI·hace 1d

DiBS: Diffusion-Informed Branch Selection

El artículo introduce DiBS, un nuevo enfoque guiado por un modelo de difusión para la selección de ramas en la resolución de Sudoku, un problema de satisfacción de restricciones. Mejora los solucionadores simbólicos utilizando un modelo de difusión para guiar el orden de las ramas, asegurando la completitud y mitigando problemas de búsqueda de cola larga.

branch selection Diffusion Models constraint satisfaction Sudoku

RESEARCHDEV.to AI·1/5/2026

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

Este contenido trata sobre Deep Dyna-Q, un enfoque que integra la planificación para el aprendizaje de políticas de diálogo en sistemas conversacionales de IA. El objetivo es optimizar el proceso de completar tareas a través de la interacción dialogada con la IA.

reinforcement learning Natural Language Processing AI algorithms dialogue systems

RESEARCHarXiv CS.CL·7/5/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA es un algoritmo novedoso de aprendizaje por refuerzo que mejora los LLM para el razonamiento no supervisado, abordando la falta de adaptabilidad en los métodos existentes. Utiliza la Recompensa Impulsada por Energía Libre (FER) para equilibrar el consenso y la exploración, y la Configuración Adaptativa de Ventaja (AAS) para ajustar las señales de aprendizaje. FREIA supera a las bases de referencia no supervisadas en tareas de razonamiento, especialmente en matemáticas.

LLMs reinforcement learning AI algorithms Reasoning

RESEARCHarXiv CS.CL·hace 22d

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Esta investigación presenta OP-Mix, un nuevo algoritmo para la mezcla eficiente de datos a lo largo de todo el ciclo de vida del entrenamiento de modelos de lenguaje. Aborda el desafío de combinar diversas fuentes de datos para el preentrenamiento, el aprendizaje continuo y la adaptación, proponiendo una solución unificada de toma de decisiones en línea.

language models learning data mixing machine learning

RESEARCHarXiv CS.AI·hace 8d

Structure-Induced Information for Rerooting Levin Tree Search

Este artículo introduce nuevos diseños de "rerooter" para el algoritmo $\sqrt{\text{LTS}}$, abordando las limitaciones de escalabilidad de la generación explícita de subobjetivos en la búsqueda de árboles de políticas basada en subobjetivos. Estos diseños descomponen implícitamente los problemas, permitiendo una asignación escalable del esfuerzo de búsqueda.

policy search Optimization tree search machine learning

RESEARCHDEV.to AI·12/4/2026

LightLDA: Big Topic Models on Modest Compute Clusters

LightLDA es un algoritmo innovador para construir grandes modelos de tópicos de manera eficiente, incluso en clusters de computación modestos. Optimiza la escalabilidad y el procesamiento de grandes volúmenes de datos, haciendo que el modelado de tópicos avanzado sea más accesible.

Scalability Topic Modeling distributed computing NLP