← heapsort-ai

information theory

15 items

RESEARCHarXiv CS.CL·il y a 18j

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Cet article introduit PromptNCE, une méthode pour estimer l'information mutuelle ponctuelle (PMI) en utilisant uniquement des LLM et des invites d'estimation contrastive, contournant le besoin de critiques spécifiques à la tâche. Il présente un benchmark avec des PMI dérivés de l'humain et montre que PromptNCE atteint une corrélation de Spearman allant jusqu'à 0,82.

33
RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.AI·il y a 12j

On the Origin of Synthetic Information by Means of Steganographic Inheritance

Cet article de recherche postule l'origine de l'information synthétique comme un mystère central en science de l'information, en faisant une analogie avec l'origine des espèces. Il propose un mécanisme d'héritage stéganographique pour aider à tracer la lignée évolutive de l'information synthétique générée par l'IA, reconnaissant les implications morales et les défis techniques.

28
RESEARCHarXiv CS.CL·16/04/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Cet article présente la bi-prédictibilité (P) et l'architecture Information Digital Twin (IDT) pour le suivi en temps réel de l'intégrité des interactions des LLM. Cela permet d'assurer une cohérence structurelle continue dans les flux de travail multi-tours, remédiant aux lacunes des méthodes d'évaluation actuelles qui ne détectent pas la dégradation progressive.

27
RESEARCHarXiv CS.LG·il y a 19j

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

L'article propose un cadre neuronal pour estimer l'information mutuelle conditionnelle par paires (MI) directement à partir des états cachés de modèles de diffusion masqués (MDMs) pré-entraînés. Cette méthode capture les structures de dépendance et permet un décodage parallèle guidé par la MI, démontrant son utilité dans la génération de séquences de Sudoku et de protéines en récupérant des contraintes structurelles.

27
RESEARCHarXiv CS.LG·04/05/2026

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

Cet article introduit des perturbations virtuelles prévisibles et adaptatives à l'historique pour améliorer les bornes de généralisation basées sur la théorie de l'information pour la descente de gradient stochastique. Cette nouvelle approche permet aux covariances de perturbation de dépendre dynamiquement de l'historique passé du SGD, résolvant les limitations des méthodes existantes qui nécessitent des covariances fixes.

27
RESEARCHarXiv CS.AI·21/04/2026

The Query Channel: Information-Theoretic Limits of Masking-Based Explanations

Cet article modélise les méthodes d'explication d'IA basées sur le masquage comme une communication sur un canal de requête, où les explications sont des messages. Il établit des limites théoriques de l'information pour la récupération des explications exactes, montrant qu'une récupération fiable est atteignable en dessous d'une certaine capacité.

27