← heapsort-ai

entropy

5 items

RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.LG·15d atrás

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta pesquisa propõe que o raciocínio de LLMs é um estado de decodificação dinâmico, não uma propriedade estática, observável através da dinâmica de entropia em estágios iniciais durante a geração. Tarefas que se beneficiam do Chain-of-Thought exibem uma redução consistente da entropia, interpretada como uma transição de fase para um regime de raciocínio estruturado.

28
RESEARCHDEV.to AI·17d atrás

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta pesquisa explora o mecanismo de entropia na aprendizagem por reforço, especificamente sua aplicação para melhorar as capacidades de raciocínio em modelos de linguagem. Investiga como a entropia pode ser aproveitada para aprimorar o processo de aprendizagem e a tomada de decisões para um raciocínio mais robusto em modelos de linguagem.

27