← heapsort-ai

entropy

5 items

RESEARCHarXiv CS.LG·6/4/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.CL·9/4/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.LG·hace 15d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

28
RESEARCHDEV.to AI·hace 17d

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta investigación explora el mecanismo de entropía del aprendizaje por refuerzo, específicamente su aplicación para mejorar las capacidades de razonamiento en los modelos de lenguaje. Investiga cómo se puede aprovechar la entropía para mejorar el proceso de aprendizaje y la toma de decisiones para un razonamiento más sólido en los modelos de lenguaje.

27