RESEARCH27

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

arXiv CS.LG·14. April 2026

Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.

Entropy Control Policy Entropy LLMs reinforcement learning Entropy Regularization

Original lesen ↗