← heapsort-ai

entropy

5 items

RESEARCHarXiv CS.LG·06/04/2026

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

28
RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.LG·il y a 15j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

28
RESEARCHDEV.to AI·il y a 17j

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Cette recherche explore le mécanisme d'entropie de l'apprentissage par renforcement, spécifiquement son application pour améliorer les capacités de raisonnement dans les modèles de langage. Elle étudie comment l'entropie peut être exploitée pour améliorer le processus d'apprentissage et la prise de décision pour un raisonnement plus robuste des modèles de langage.

27