← heapsort-ai

reinforcement learning

153 items

RESEARCHarXiv CS.CL·il y a 1j

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Cette recherche introduit PolyFact, un ensemble de données de QA factuel multilingue, pour aborder l'incohérence factuelle interlingue dans les LLMs. Elle constate que l'apprentissage par renforcement via GRPO améliore constamment le rappel factuel interlingue et la généralisation par rapport à l'ajustement fin supervisé.

60
RESEARCHarXiv CS.LG·il y a 1j

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

MacArena est un nouveau benchmark pour les agents d'utilisation informatique (CUAs) opérant des interfaces utilisateur graphiques (GUIs) sur macOS, comblant le manque de benchmarks pour cette plateforme. Il propose 421 tâches vérifiées sur 50 applications, fonctionnant nativement sur Apple Silicon, pour défier les CUAs au-delà des benchmarks basés sur Linux.

60
RESEARCHarXiv CS.LG·il y a 20h

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

L'apprentissage par renforcement hors ligne offre une voie prometteuse pour développer des contrôleurs de plasma à partir de données de tokamak historiques. Le RL4F est présenté comme un benchmark pour l'apprentissage par renforcement hors ligne dans le contrôle du plasma de fusion nucléaire, évaluant les méthodes de base et concluant que les méthodes basées sur des modèles sont les plus performantes.

54
RESEARCHarXiv CS.CL·il y a 20h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

L'article introduit TinyJudge, un cadre qui utilise un ensemble de petits modèles de langage spécialisés (0.6B) pour fournir des récompenses légères et de haute précision pour les contraintes douces et invérifiables dans le suivi d'instructions par les LLM. Cette approche vise à résoudre les problèmes d'évasion des récompenses et de surcharge computationnelle des méthodes traditionnelles d'alignement des contraintes.

54
RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

L'auteur a réussi à entraîner un modèle Qwen2.5-0.5B-Instruct pour la summarisation de posts Reddit en utilisant GRPO, atteignant une longueur moyenne de 64 tokens avec des récompenses de qualité et de pénalité de longueur. L'expérience, exécutée sur un cluster de Mac Minis, utilise un "LLM-as-a-Judge" (GPT-5) pour l'évaluation et prévoit de futures itérations avec des fonctions de récompense ajustées.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·23/04/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD propose un cadre de raffinement progressif qui unifie la génération et l'édition de CAO à partir de texte, surmontant les limites des approches disjointes. Il exploite un ensemble de données d'interaction haute fidélité et un cadre de raisonnement amélioré par l'apprentissage par renforcement, adapté aux LLM, pour permettre une modélisation CAO contrôlable et fidèle.

43
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un chercheur étudiant en IA a découvert pourquoi la fusion d'avantages à plusieurs échelles de temps dans les architectures PPO Actor-Critic provoque l'effondrement de la politique. Cela est dû au «piratage» de l'objectif de substitution et à la préférence pour les horizons à court terme en raison d'une incertitude temporelle plus faible.

42
ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Studying Sutton and Barto's RL book and its connections to RL for LLMs (e.g., tool use, math reasoning, agents, and so on)? [D]

Um graduado em Matemática busca orientação para estudar Aprendizado por Reforço (RL) e suas conexões com LLMs, especialmente para aplicações em matemática. Ele questiona a relevância do livro 'Sutton e Barto' em um contexto moderno de LLMs e pede ajuda para focar em tópicos e algoritmos mais recentes como PPO e GRPO.

38
RESEARCHarXiv CS.AI·il y a 5j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

33
RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

31
RESEARCHarXiv CS.LG·16/04/2026

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Cette étude introduit une approche d'apprentissage par renforcement hiérarchique basée sur les graphes pour la co-conception automatisée de cycles thermodynamiques haute performance. Elle encode les cycles comme des graphes, utilise un substitut de deep learning pour le décodage et un cadre de RL pour l'évolution structurelle et l'optimisation des paramètres.

31
RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

31
RESEARCHarXiv CS.LG·21/04/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Cette recherche présente un modèle de récompense génératif (GRM) basé sur des rubriques pour améliorer le réglage fin renforcé (RFT) des agents LLM dans les tâches d'ingénierie logicielle (SWE). En fournissant des signaux d'apprentissage plus riches au-delà des récompenses terminales binaires, cette approche façonne les comportements intermédiaires et améliore significativement la qualité du processus de résolution.

31
RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

30
RESEARCHarXiv CS.AI·il y a 19j

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Le framework COSMO-Agent utilise l'apprentissage par renforcement augmenté par des outils pour enseigner aux LLM à combler le fossé sémantique CAD-CAE, permettant une optimisation en boucle fermée dans la conception industrielle. Il exploite un environnement de RL interactif pour la génération CAD, la résolution CAE et la révision géométrique, guidé par une récompense multi-contraintes.

30