← heapsort-ai

Deep Reinforcement Learning

4 items

RESEARCHarXiv CS.AI·4/13/2026

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

RAMP proposes a novel strategy for learning numeric planning action models online through environmental interactions, integrating Deep Reinforcement Learning (DRL), action model learning, and planning. This creates a positive feedback loop where the RL policy gathers data to refine the action model, while the planner generates plans to continue training the RL policy.

27
RESEARCHarXiv CS.AI·4/7/2026

When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

Este artigo de pesquisa explora o design adaptativo de recompensas para DRL no agendamento de satélites LEO, revelando um dilema de estabilidade onde pesos de recompensa estáticos superam os dinâmicos devido à necessidade de um sinal quase estacionário para o PPO. O estudo introduz um método de sondagem causal para identificar a alavancagem de termos de recompensa específicos, descobrindo que um aumento na penalidade de switching melhora significativamente a taxa de dados.

27