← heapsort-ai

Policy Entropy

1 items

RESEARCHarXiv CS.LG·14/04/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Este artigo oferece uma análise teórica comparativa de estratégias de controle de entropia em Aprendizado por Reforço, focando na regularização tradicional e um novo mecanismo baseado em covariância para o treinamento de LLMs. A análise revela que métodos baseados em covariância alcançam imparcialidade assintótica ao regularizar seletivamente, ao contrário da regularização tradicional que introduz um viés persistente.

27