RESEARCH27
RAGEN-2: Reasoning Collapse in Agentic RL
arXiv CS.LG·9 de abril de 2026
Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.
LLMsReinforcement Learningreasoningevaluation metricsAI agents
Ler original ↗