reinforcement learning

153 items

DOCAWS Machine Learning Blog·hace 4h

Scale Robot Reinforcement Learning with NVIDIA Isaac Lab on Amazon SageMaker AI

Esta publicación demuestra cómo entrenar políticas de robots para el humanoide Unitree H1 utilizando NVIDIA Isaac Lab en Amazon SageMaker AI. Explora dos opciones de cómputo: Amazon SageMaker HyperPod y Amazon SageMaker Training Jobs.

reinforcement learning learning robotics NVIDIA

RESEARCHarXiv CS.CL·hace 1d

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Esta investigación presenta PolyFact, un conjunto de datos de preguntas y respuestas factuales multilingüe, para abordar la inconsistencia factual entre idiomas en los LLMs. Se encuentra que el aprendizaje por refuerzo a través de GRPO mejora consistentemente la recuperación factual entre idiomas y la generalización en comparación con el ajuste fino supervisado.

Multilingual AI LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·hace 1d

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena es un nuevo benchmark para agentes de uso de computadoras (CUAs) que operan interfaces gráficas de usuario (GUIs) en macOS, abordando la falta de benchmarks adecuados para la plataforma. Ofrece 421 tareas verificadas en 50 aplicaciones, ejecutándose de forma nativa en Apple Silicon, para desafiar a los CUAs más allá de los benchmarks basados en Linux.

Computer-use agents reinforcement learning Benchmarking macOS

RESEARCHarXiv CS.LG·hace 20h

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

El aprendizaje por refuerzo offline es una ruta prometedora para desarrollar controladores de plasma a partir de datos históricos de tokamak. Se introduce RL4F, un benchmark para el aprendizaje por refuerzo offline en el control de plasma de fusión nuclear, evaluando líneas de base y encontrando que los métodos basados en modelos son los mejores.

AI Benchmarks reinforcement learning Plasma Control Tokamak

RESEARCHarXiv CS.CL·hace 20h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

El artículo presenta TinyJudge, un framework que utiliza un conjunto de modelos de lenguaje pequeños especializados (0.6B) para proporcionar recompensas ligeras y de alta precisión para restricciones suaves e inverificables en el seguimiento de instrucciones por LLMs. Este enfoque aborda los cuellos de botella del "reward hacking" y el alto costo computacional de los métodos tradicionales de alineación de restricciones.

Tiny Models Model Alignment LLMs reinforcement learning

ARTICLEHugging Face Blog·hace 2d

The Open Source Community is backing OpenEnv for Agentic RL

La comunidad de código abierto está respaldando OpenEnv para el desarrollo de Aprendizaje por Refuerzo Agéntico. Esta iniciativa subraya la colaboración en el avance de la IA.

Open Source reinforcement learning OpenEnv AI development

RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

El autor logró un éxito inicial entrenando un modelo Qwen2.5-0.5B-Instruct para la sumarización de publicaciones de Reddit utilizando GRPO, obteniendo una longitud de despliegue promedio de 64 tokens con recompensas de calidad y penalización de longitud. El experimento, ejecutado en un clúster de Mac Minis, emplea un "LLM-as-a-Judge" (GPT-5) para la evaluación y planea futuras iteraciones con funciones de recompensa ajustadas.

reinforcement learning Qwen2.5 GRPO Reddit

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.CL·23/4/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD introduce un marco de refinamiento progresivo que unifica la generación y edición de CAD a partir de texto, superando las limitaciones de los enfoques disjuntos. Utiliza un conjunto de datos de interacción de alta fidelidad y un marco de razonamiento mejorado con aprendizaje por refuerzo, adaptado para LLMs, para permitir un modelado CAD controlable y fiel.

LLMs reinforcement learning CAD modeling text-to-CAD

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.

evaluation reinforcement learning AI training summarization

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un estudiante de IA de pregrado en investigación identificó por qué la fusión de ventajas de múltiples escalas de tiempo en arquitecturas PPO Actor-Critic provoca el colapso de la política. Esto se debe a la manipulación del objetivo sustituto y a la preferencia por horizontes a corto plazo debido a una menor incertidumbre temporal.

Optimization Actor-Critic reinforcement learning PPO

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Studying Sutton and Barto's RL book and its connections to RL for LLMs (e.g., tool use, math reasoning, agents, and so on)? [D]

Um graduado em Matemática busca orientação para estudar Aprendizado por Reforço (RL) e suas conexões com LLMs, especialmente para aplicações em matemática. Ele questiona a relevância do livro 'Sutton e Barto' em um contexto moderno de LLMs e pede ajuda para focar em tópicos e algoritmos mais recentes como PPO e GRPO.

Sutton e Barto LLMs AI para Matemática reinforcement learning

RESEARCHarXiv CS.AI·hace 5d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

LLMs reinforcement learning code generation RTL Synthesis

RESEARCHarXiv CS.LG·16/4/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Este trabajo introduce STOMP, un novedoso algoritmo de aprendizaje por refuerzo fuera de línea para optimización multiobjetivo utilizando la escalarización suave de Tchebysheff. Aborda la limitación de la escalarización lineal para recuperar frentes de Pareto no convexos, crucial para alinear modelos de lenguaje grandes y otras aplicaciones con recompensas conflictivas.

reinforcement learning Multi-objective Optimization AI alignment machine learning

RESEARCHarXiv CS.LG·16/4/2026

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Este estudio presenta un enfoque de aprendizaje por refuerzo jerárquico basado en grafos para el codiseño automatizado de ciclos termodinámicos de alto rendimiento. La metodología utiliza redes neuronales profundas para la decodificación y un marco de RL para la evolución estructural y la optimización de parámetros.

Energy Systems deep learning reinforcement learning Graph Neural Networks

RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.LG·21/4/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Esta investigación introduce un Modelo de Recompensa Generativo (GRM) basado en rúbricas para mejorar el Ajuste Fino Reforzado (RFT) en Agentes LLM para tareas de Ingeniería de Software (SWE). Al proporcionar señales de aprendizaje más ricas que las recompensas terminales binarias, este enfoque moldea los comportamientos intermedios y mejora significativamente la calidad del proceso de resolución.

reinforcement learning Fine-tuning Software engineering AI agents

RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

Diffusion Models LLMs reinforcement learning machine learning

RESEARCHarXiv CS.AI·hace 19d

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

El framework COSMO-Agent utiliza el aprendizaje por refuerzo aumentado con herramientas para enseñar a los LLM a cerrar la brecha semántica CAD-CAE, facilitando la optimización de bucle cerrado en el diseño industrial. Emplea un entorno de RL interactivo para la generación CAD, resolución CAE y revisión geométrica, impulsado por una recompensa de múltiples restricciones.

LLMs CAD/CAE reinforcement learning Industrial design

RESEARCHarXiv CS.LG·hace 19d

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Este artículo presenta GROW, un marco de RL para agentes VLM en tareas de mundo abierto, superando las limitaciones de los métodos basados en SFT. Propone un enfoque novedoso para GRPO, descomponiendo trayectorias en muestras de estado-acción en lugar de entidades completas.

VLM Agents Policy optimization Open-world AI reinforcement learning