RESEARCH27
Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
arXiv CS.LG·19. Mai 2026
Diese Forschung befasst sich mit dem Problem der schlechten Kreditzuweisung im Reinforcement Learning für mehrstufiges Denken mit großen Sprachmodellen, verursacht durch spärliche Endbelohnungen, die zu hoher Gradientenvarianz und instabilem Training führen. Sie schlägt einen kontrafaktischen Vergleichs-basierten Kreditzuweisungsrahmen und die Implizite Verhaltensrichtlinienoptimierung (IBPO) vor, um schrittsensitive Lernsignale zu erzeugen, was die Trainingsstabilität und Leistung erheblich verbessert.
Original lesen ↗