← heapsort-ai

Generalization

12 items

RESEARCHarXiv CS.CL·il y a 1j

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

L'hypothèse du Piggyback explique comment les tokens de modèle de chat peuvent induire un désalignement émergent dans les LLMs, généralisant les comportements affinés à des requêtes hors domaine. La technique de finetuning régularisé par token (TReFT) est proposée pour atténuer ce problème, préservant l'apprentissage intra-domaine et réduisant le désalignement.

41
RESEARCHarXiv CS.CL·il y a 5j

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Cette étude examine la généralisation inter-prompts dans la détection des fausses nouvelles générées par l'IA en utilisant des caractéristiques linguistiques interprétables, telles que la diversité lexicale et la lisibilité. Les performances de détection restent constamment élevées, même lorsque les modèles sont entraînés et testés avec différentes stratégies de prompt.

29
RESEARCHarXiv CS.LG·16/04/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Cet article présente l'algorithme Langevin Gradient Descent (LGD) pour les problèmes de régression convexe, prouvant que les configurations optimales d'hyperparamètres atteignent la solution optimale de Bayes. Le travail offre également des garanties de généralisation pour le méta-apprentissage des hyperparamètres optimaux du LGD, avec une borne de pseudo-dimension de O(dh).

29
RESEARCHarXiv CS.LG·01/05/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Cette étude passe en revue les méthodes d'apprentissage profond pour le décodage EEG inter-sujets, s'attaquant à la variabilité élevée entre les sujets et le décalage de domaine. Elle catégorise la littérature en familles méthodologiques telles que l'alignement de caractéristiques et l'apprentissage contrastif, soulignant l'évaluation rigoureuse et les limitations théoriques.

29
RESEARCHarXiv CS.LG·08/05/2026

Are Flat Minima an Illusion?

Cet article remet en question l'idée selon laquelle les minima plats conduisent intrinsèquement à une meilleure généralisation, montrant qu'une reparamétrisation préservant la fonction peut modifier drastiquement la netteté perçue d'un minimum. Il introduit la « faiblesse » — une mesure invariante à la reparamétrisation basée sur ce que fait le réseau — comme le véritable moteur de la généralisation, prouvant son optimalité minimax et sa corrélation avec les bornes PAC-Bayes.

27
RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Cet article identifie l'entropie spectrale normalisée comme un paramètre d'ordre scalaire pour la transition de grokking, où les modèles généralisent longtemps après la mémorisation. La recherche montre que l'effondrement de l'entropie précède la généralisation, et des interventions causales confirment son rôle critique, offrant un modèle prédictif pour le début du grokking.

27
RESEARCHarXiv CS.LG·21/04/2026

Preventing overfitting in deep learning using differential privacy

Cette recherche explore une approche basée sur la confidentialité différentielle pour améliorer la généralisation et prévenir le surapprentissage dans les réseaux neuronaux profonds. Le surapprentissage, où les modèles apprennent le bruit et fonctionnent mal sur des données invisibles, est un défi croissant dans les systèmes d'IA modernes.

27
RESEARCHarXiv CS.LG·04/05/2026

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

Cet article introduit des perturbations virtuelles prévisibles et adaptatives à l'historique pour améliorer les bornes de généralisation basées sur la théorie de l'information pour la descente de gradient stochastique. Cette nouvelle approche permet aux covariances de perturbation de dépendre dynamiquement de l'historique passé du SGD, résolvant les limitations des méthodes existantes qui nécessitent des covariances fixes.

27
RESEARCHarXiv CS.AI·il y a 7j

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Cette recherche introduit une nouvelle méthode d'attribution de récompense par étape différée pour entraîner des agents de modèles de langage dans des interactions stratégiques multi-agents. Elle aborde le défi des résultats entrelacés en calculant les récompenses à la fin de l'épisode et en les propageant, permettant un apprentissage par renforcement stable et économe en échantillons.

27
RESEARCHarXiv CS.AI·il y a 8j

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN (Modular Agentic Verification and Execution Network) est un échafaudage de raisonnement symbolique léger qui améliore la généralisation dans les environnements d'appel d'outils agentiques. Il a été évalué sur des benchmarks établis et introduit MAVEN-Bench, un nouveau benchmark de test de stress pour le raisonnement mathématique et physique en plusieurs étapes.

27
RESEARCHarXiv CS.CL·il y a 8j

Configurable Reward Model for Balanced Safety Alignment

Cet article introduit le Modèle de Récompense de Sécurité Configurable (CSRM) pour relever le défi d'aligner les LLM avec des exigences de sécurité hétérogènes et évolutives. Le CSRM améliore considérablement la généralisation aux configurations de sécurité inédites en étant optimisé conjointement pour la conformité de sécurité calibrée et la modélisation des récompenses, atteignant des performances de pointe sur les benchmarks.

27