← heapsort-ai

Generalization

12 items

RESEARCHarXiv CS.CL·hace 1d

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

La Hipótesis Piggyback explica cómo los tokens de plantilla de chat pueden causar desalineación emergente en LLMs, generalizando el comportamiento ajustado a consultas fuera del dominio. Se propone la técnica Token-Regularized Finetuning (TReFT) para mitigar este problema, preservando el aprendizaje en el dominio y reduciendo la desalineación.

41
RESEARCHarXiv CS.CL·hace 5d

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Este estudio investiga la generalización entre prompts en la detección de noticias falsas generadas por IA utilizando características lingüísticas interpretables, como la diversidad léxica y la legibilidad. Los resultados muestran un alto rendimiento constante en la detección, incluso cuando los modelos son entrenados y probados con diferentes estrategias de prompt.

29
RESEARCHarXiv CS.LG·16/4/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Este artículo introduce el algoritmo Langevin Gradient Descent (LGD) para problemas de regresión convexa, demostrando que las configuraciones óptimas de hiperparámetros alcanzan la solución óptima de Bayes. El trabajo también ofrece garantías de generalización para el meta-aprendizaje de hiperparámetros óptimos de LGD, con un límite de pseudo-dimensión de O(dh).

29
RESEARCHarXiv CS.LG·1/5/2026

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Este estudio revisa métodos de deep learning para la decodificación de EEG entre sujetos, abordando el desafío de la alta variabilidad inter-sujeto y el cambio de dominio. Clasifica la literatura actual en familias metodológicas como alineación de características y aprendizaje contrastivo, enfatizando la evaluación rigurosa y las limitaciones teóricas.

29
RESEARCHarXiv CS.LG·8/5/2026

Are Flat Minima an Illusion?

Este artículo desafía la visión convencional de que los mínimos planos conducen inherentemente a una mejor generalización, mostrando que la reparametrización que preserva la función puede alterar drásticamente la nitidez percibida de un mínimo. Introduce la "debilidad" —una medida invariante a la reparametrización basada en lo que hace la red— como el verdadero motor de la generalización, demostrando su optimalidad minimax y correlación con los límites PAC-Bayes.

27
RESEARCHarXiv CS.LG·16/4/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artículo identifica la entropía espectral normalizada como un parámetro escalar para la transición de grokking, donde los modelos generalizan mucho después de la memorización. La investigación demuestra que el colapso de la entropía precede a la generalización y que las intervenciones causales confirman su papel crítico, proporcionando un modelo predictivo para el inicio del grokking.

27
RESEARCHarXiv CS.LG·4/5/2026

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

Este artículo introduce perturbaciones virtuales predecibles y adaptativas al historial para mejorar los límites de generalización teórico-informacionales para el Descenso de Gradiente Estocástico. Este nuevo enfoque permite que las covarianzas de perturbación dependan dinámicamente del historial pasado del SGD, abordando las limitaciones de los métodos existentes que requieren covarianzas fijas.

27
RESEARCHarXiv CS.AI·hace 7d

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Esta investigación introduce un nuevo método de atribución de recompensa por paso retrasada para entrenar agentes de modelos de lenguaje en interacciones estratégicas multiagente. Aborda el desafío de los resultados entrelazados calculando las recompensas al final del episodio y propagándolas, lo que permite un aprendizaje por refuerzo estable y eficiente en muestras.

27
RESEARCHarXiv CS.CL·hace 8d

Configurable Reward Model for Balanced Safety Alignment

Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.

27