RESEARCH27

RAGEN-2: Reasoning Collapse in Agentic RL

arXiv CS.LG·9 de abril de 2026

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMsReinforcement Learningreasoningevaluation metricsAI agents

Ler original ↗