Generalization

12 items

RESEARCHarXiv CS.CL·vor 1T

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

Die Piggyback-Hypothese erklärt, wie Chat-Template-Token in LLMs zu emergentem Fehlverhalten führen können, indem sie feinabgestimmtes Verhalten auf Out-of-Domain-Anfragen übertragen. Die Token-Regularized Finetuning (TReFT)-Methode wird vorgeschlagen, um dieses Problem zu mindern, wobei das In-Domain-Lernen erhalten bleibt und das Fehlverhalten reduziert wird.

Finetuning Emergent Misalignment LLMs Generalization

RESEARCHarXiv CS.CL·vor 5T

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Diese Studie untersucht die übergreifende Prompt-Generalisierung bei der Erkennung von KI-generierten Falschmeldungen mithilfe interpretierbarer linguistischer Merkmale wie lexikalischer Vielfalt und Lesbarkeit. Die Ergebnisse zeigen eine durchweg hohe Detektionsleistung, selbst wenn die Modelle mit unterschiedlichen Prompt-Strategien trainiert und getestet werden.

Generalization AI detection fake news large language models

RESEARCHarXiv CS.LG·4/16/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Dieses Papier stellt den Langevin Gradient Descent (LGD) Algorithmus für konvexe Regressionsprobleme vor und beweist, dass optimale Hyperparameterkonfigurationen die Bayes-optimale Lösung erreichen. Die Arbeit liefert auch Generalisierungsgarantien für das Meta-Lernen der optimalen LGD-Hyperparameter mit einer Pseudodimensionsgrenze von O(dh).

Meta-Learning Optimization Generalization Hyperparameter Tuning

RESEARCHarXiv CS.LG·5/1/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Diese Studie beleuchtet Deep-Learning-Methoden zur Subjekt-übergreifenden EEG-Dekodierung, die die Herausforderung hoher interindividueller Variabilität und Domänenverschiebung adressieren. Sie kategorisiert die Literatur in methodische Familien wie Feature-Alignment und kontrastives Lernen und betont rigorose Evaluierung und theoretische Überlegungen.

Generalization deep learning Biomedical AI EEG

RESEARCHarXiv CS.LG·5/8/2026

Are Flat Minima an Illusion?

Dieser Artikel stellt die konventionelle Ansicht in Frage, dass flache Minima inhärent zu besserer Generalisierung führen, indem er zeigt, dass funktionserhaltende Reparameterisierung die wahrgenommene Schärfe eines Minimums drastisch verändern kann. Er führt „Schwäche“ ein – ein reparameterisierungsinvariantes Maß, das auf dem basiert, was das Netzwerk tut – als den eigentlichen Treiber der Generalisierung und beweist dessen Minimax-Optimalität und Korrelation mit PAC-Bayes-Grenzen.

neural networks Optimization Generalization Machine Learning Theory

RESEARCHarXiv CS.LG·4/16/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Diese Arbeit identifiziert die normalisierte spektrale Entropie als skalaren Ordnungsparameter für den Grokking-Übergang, bei dem Modelle lange nach dem Auswendiglernen verallgemeinern. Die Forschung zeigt, dass der Entropiekollaps der Generalisierung vorausgeht, und kausale Interventionen bestätigen deren kritische Rolle, was ein prädiktives Modell für den Beginn des Grokking liefert.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·4/21/2026

Preventing overfitting in deep learning using differential privacy

Diese Forschung untersucht einen Ansatz, der auf differentieller Privatsphäre basiert, um die Generalisierung zu verbessern und Overfitting in tiefen neuronalen Netzen zu verhindern. Overfitting, bei dem Modelle Rauschen lernen und auf ungesehenen Daten schlecht abschneiden, ist eine wachsende Herausforderung in modernen KI-Systemen.

Differential Privacy Generalization privacy deep learning

RESEARCHarXiv CS.LG·5/4/2026

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

Dieser Artikel führt vorhersehbare, geschichtsadaptive virtuelle Störungen ein, um informations-theoretische Generalisierungsgrenzen für den Stochastischen Gradientenabstieg zu verbessern. Dieser neue Ansatz ermöglicht es den Störungkovarianzen, dynamisch von der früheren SGD-Historie abzuhängen, wodurch Einschränkungen bestehender Methoden, die feste Kovarianzen erfordern, behoben werden.

information theory Optimization Generalization machine learning

RESEARCHarXiv CS.AI·vor 7T

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Diese Forschung stellt eine neue Methode zur verzögerten Belohnungszuschreibung pro Schritt für das Training von Sprachmodell-Agenten in Multi-Agenten-Strategieinteraktionen vor. Sie begegnet der Herausforderung verstrickter Ergebnisse, indem Belohnungen erst am Ende der Episode berechnet und zurückpropagiert werden, was stabiles und stichprobeneffizientes Reinforcement Learning ermöglicht.

language models Generalization reinforcement learning multi-agent systems

RESEARCHarXiv CS.AI·vor 8T

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN (Modular Agentic Verification and Execution Network) ist ein leichtes symbolisches Reasoning-Gerüst zur Verbesserung der Generalisierung in agentischen Tool-Calling-Umgebungen. Es wurde auf etablierten Benchmarks evaluiert und führt MAVEN-Bench ein, einen neuen Stresstest-Benchmark für mehrstufiges mathematisches und physikalisches Reasoning.

LLMs Generalization tool-calling Benchmarking

RESEARCHarXiv CS.CL·vor 8T

Configurable Reward Model for Balanced Safety Alignment

Dieses Papier stellt das Konfigurierbare Sicherheitsbelohnungsmodell (CSRM) vor, um die Herausforderung der Ausrichtung von LLMs an heterogene und sich schnell entwickelnde Sicherheitsanforderungen zu bewältigen. CSRM verbessert die Generalisierung auf zuvor ungesehene Sicherheitskonfigurationen erheblich, indem es für kalibrierte Sicherheitskonformität und Belohnungsmodellierung optimiert wird, und erzielt dabei eine hochmoderne Leistung auf Benchmarks.

Generalization machine learning large language models Reward Models

RESEARCHarXiv CS.LG·4/6/2026

Contextual Intelligence The Next Leap for Reinforcement Learning

O texto aborda as limitações de generalização do Reinforcement Learning (RL), onde políticas aprendidas falham fora da distribuição de treinamento. Propõe uma nova taxonomia de contextos (alógenos e autógenos) e identifica direções de pesquisa cruciais para desenvolver uma verdadeira inteligência contextual.

Generalization Contextual Intelligence reinforcement learning Taxonomy