RESEARCH27
ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
arXiv CS.AI·18. Mai 2026
ICRL schlägt ein neuartiges Framework vor, um große Sprachmodellagenten zu trainieren, Selbstkritik zu internalisieren und Feedback in unassistierte Problemlösungsfähigkeiten umzuwandeln. Es trainiert gemeinsam einen Solver und einen Kritiker aus einem gemeinsamen Backbone und belohnt den Kritiker für umsetzbares Feedback, um iterative Selbstverbesserung zu fördern.
Original lesen ↗