← heapsort-ai

Deep Reinforcement Learning

4 items

RESEARCHarXiv CS.AI·13/04/2026

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

RAMP propose une stratégie inédite pour l'apprentissage en ligne de modèles d'action de planification numérique via des interactions avec l'environnement, intégrant le DRL, l'apprentissage de modèles d'action et la planification. Cela forme une boucle de rétroaction positive où la politique de RL collecte des données pour affiner le modèle d'action, tandis que le planificateur génère des plans pour poursuivre l'entraînement de la politique de RL.

27
RESEARCHarXiv CS.AI·07/04/2026

When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

Este artigo de pesquisa explora o design adaptativo de recompensas para DRL no agendamento de satélites LEO, revelando um dilema de estabilidade onde pesos de recompensa estáticos superam os dinâmicos devido à necessidade de um sinal quase estacionário para o PPO. O estudo introduz um método de sondagem causal para identificar a alavancagem de termos de recompensa específicos, descobrindo que um aumento na penalidade de switching melhora significativamente a taxa de dados.

27