← heapsort-ai

Credit assignment

2 items

RESEARCHarXiv CS.CL·hace 14d

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO es un nuevo marco de optimización de políticas sin crítico que aborda el desafío de asignación de crédito en agentes de lenguaje interactivos. Convierte las interacciones de recuperación en señales de aprendizaje localizadas, evaluando acciones ejecutables y propagando crédito a pasos de razonamiento latentes.

27
RESEARCHarXiv CS.LG·hace 22d

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta investigación aborda el desafío de la mala asignación de crédito en el aprendizaje por refuerzo para el razonamiento multi-paso con grandes modelos de lenguaje, causado por recompensas terminales dispersas que conducen a una alta varianza de gradiente y un entrenamiento inestable. Propone un marco de asignación de crédito basado en comparación contrafactual y la Optimización Implícita de la Política de Comportamiento (IBPO) para crear señales de aprendizaje sensibles al paso, mejorando significativamente la estabilidad y el rendimiento del entrenamiento.

27