RESEARCH27
A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning
arXiv CS.LG·14. April 2026
Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.
Original lesen ↗