heapsort
RESEARCH27

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

arXiv CS.LG·14. April 2026

Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.

Original lesen