RESEARCHarXiv CS.LG·4/14/2026
A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning
Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.
27