← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·hace 1d

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Esta investigación presenta PolyFact, un conjunto de datos de preguntas y respuestas factuales multilingüe, para abordar la inconsistencia factual entre idiomas en los LLMs. Se encuentra que el aprendizaje por refuerzo a través de GRPO mejora consistentemente la recuperación factual entre idiomas y la generalización en comparación con el ajuste fino supervisado.

60
RESEARCHarXiv CS.LG·hace 1d

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena es un nuevo benchmark para agentes de uso de computadoras (CUAs) que operan interfaces gráficas de usuario (GUIs) en macOS, abordando la falta de benchmarks adecuados para la plataforma. Ofrece 421 tareas verificadas en 50 aplicaciones, ejecutándose de forma nativa en Apple Silicon, para desafiar a los CUAs más allá de los benchmarks basados en Linux.

60
RESEARCHarXiv CS.LG·hace 20h

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

El aprendizaje por refuerzo offline es una ruta prometedora para desarrollar controladores de plasma a partir de datos históricos de tokamak. Se introduce RL4F, un benchmark para el aprendizaje por refuerzo offline en el control de plasma de fusión nuclear, evaluando líneas de base y encontrando que los métodos basados en modelos son los mejores.

54
RESEARCHarXiv CS.CL·hace 20h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

El artículo presenta TinyJudge, un framework que utiliza un conjunto de modelos de lenguaje pequeños especializados (0.6B) para proporcionar recompensas ligeras y de alta precisión para restricciones suaves e inverificables en el seguimiento de instrucciones por LLMs. Este enfoque aborda los cuellos de botella del "reward hacking" y el alto costo computacional de los métodos tradicionales de alineación de restricciones.

54
RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

El autor logró un éxito inicial entrenando un modelo Qwen2.5-0.5B-Instruct para la sumarización de publicaciones de Reddit utilizando GRPO, obteniendo una longitud de despliegue promedio de 64 tokens con recompensas de calidad y penalización de longitud. El experimento, ejecutado en un clúster de Mac Minis, emplea un "LLM-as-a-Judge" (GPT-5) para la evaluación y planea futuras iteraciones con funciones de recompensa ajustadas.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·23/4/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD introduce un marco de refinamiento progresivo que unifica la generación y edición de CAD a partir de texto, superando las limitaciones de los enfoques disjuntos. Utiliza un conjunto de datos de interacción de alta fidelidad y un marco de razonamiento mejorado con aprendizaje por refuerzo, adaptado para LLMs, para permitir un modelado CAD controlable y fiel.

43
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un estudiante de IA de pregrado en investigación identificó por qué la fusión de ventajas de múltiples escalas de tiempo en arquitecturas PPO Actor-Critic provoca el colapso de la política. Esto se debe a la manipulación del objetivo sustituto y a la preferencia por horizontes a corto plazo debido a una menor incertidumbre temporal.

42
ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Studying Sutton and Barto's RL book and its connections to RL for LLMs (e.g., tool use, math reasoning, agents, and so on)? [D]

Um graduado em Matemática busca orientação para estudar Aprendizado por Reforço (RL) e suas conexões com LLMs, especialmente para aplicações em matemática. Ele questiona a relevância do livro 'Sutton e Barto' em um contexto moderno de LLMs e pede ajuda para focar em tópicos e algoritmos mais recentes como PPO e GRPO.

38
RESEARCHarXiv CS.AI·hace 5d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

33
RESEARCHarXiv CS.LG·16/4/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Este trabajo introduce STOMP, un novedoso algoritmo de aprendizaje por refuerzo fuera de línea para optimización multiobjetivo utilizando la escalarización suave de Tchebysheff. Aborda la limitación de la escalarización lineal para recuperar frentes de Pareto no convexos, crucial para alinear modelos de lenguaje grandes y otras aplicaciones con recompensas conflictivas.

31
RESEARCHarXiv CS.LG·16/4/2026

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Este estudio presenta un enfoque de aprendizaje por refuerzo jerárquico basado en grafos para el codiseño automatizado de ciclos termodinámicos de alto rendimiento. La metodología utiliza redes neuronales profundas para la decodificación y un marco de RL para la evolución estructural y la optimización de parámetros.

31
RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

31
RESEARCHarXiv CS.LG·21/4/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Esta investigación introduce un Modelo de Recompensa Generativo (GRM) basado en rúbricas para mejorar el Ajuste Fino Reforzado (RFT) en Agentes LLM para tareas de Ingeniería de Software (SWE). Al proporcionar señales de aprendizaje más ricas que las recompensas terminales binarias, este enfoque moldea los comportamientos intermedios y mejora significativamente la calidad del proceso de resolución.

31
RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

30
RESEARCHarXiv CS.AI·hace 19d

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

El framework COSMO-Agent utiliza el aprendizaje por refuerzo aumentado con herramientas para enseñar a los LLM a cerrar la brecha semántica CAD-CAE, facilitando la optimización de bucle cerrado en el diseño industrial. Emplea un entorno de RL interactivo para la generación CAD, resolución CAE y revisión geométrica, impulsado por una recompensa de múltiples restricciones.

30