← heapsort-ai

Generalization

12 items

RESEARCHarXiv CS.CL·1d atrás

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

A "Hipótese Piggyback" explica como tokens de modelo de chat podem induzir desalinhamento emergente em LLMs, generalizando comportamentos finetuned para consultas fora do domínio. A técnica Token-Regularized Finetuning (TReFT) é proposta para mitigar este problema, preservando o aprendizado no domínio e reduzindo o desalinhamento.

41
RESEARCHarXiv CS.CL·5d atrás

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Este estudo investiga a generalização entre prompts na detecção de notícias falsas geradas por IA, utilizando características linguísticas interpretáveis como diversidade lexical e legibilidade. Os resultados mostram alta performance consistente na detecção, mesmo quando os modelos são treinados e testados com diferentes estratégias de prompt.

29
RESEARCHarXiv CS.LG·16/04/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Este artigo apresenta o algoritmo Langevin Gradient Descent (LGD) para problemas de regressão convexa, demonstrando que configurações ótimas de hiperparâmetros alcançam a solução ótima de Bayes. O trabalho também oferece garantias de generalização para meta-aprendizagem de hiperparâmetros ótimos do LGD, com um limite de pseudo-dimensão de O(dh).

29
RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artigo propõe a entropia espectral normalizada como um parâmetro escalar para a transição de grokking, um fenômeno de generalização tardia em modelos de IA. A pesquisa demonstra que o colapso da entropia precede a generalização e que intervenções causais confirmam seu papel fundamental, oferecendo um modelo preditivo para o início do grokking.

27
RESEARCHarXiv CS.LG·04/05/2026

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

Este artigo introduz perturbações virtuais adaptativas ao histórico previsíveis para aprimorar os limites de generalização teórico-informacionais para o Gradiente Descendente Estocástico. Essa nova abordagem permite que as covariâncias de perturbação dependam dinamicamente do histórico passado do SGD, abordando as limitações dos métodos existentes que exigem covariâncias fixas.

27
RESEARCHarXiv CS.AI·7d atrás

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Esta pesquisa apresenta um novo método de atribuição de recompensa atrasada por etapa para treinar agentes de modelos de linguagem em interações estratégicas multiagentes. Ele aborda o desafio de resultados interligados, calculando recompensas no final do episódio e as propagando, o que permite um aprendizado por reforço estável e eficiente em amostras.

27
RESEARCHarXiv CS.CL·8d atrás

Configurable Reward Model for Balanced Safety Alignment

Este artigo apresenta o Modelo de Recompensa de Segurança Configurável (CSRM) para alinhar LLMs com requisitos de segurança em constante evolução. O CSRM melhora a generalização para configurações de segurança não vistas, sendo otimizado para conformidade de segurança calibrada e modelagem de recompensa, alcançando desempenho de ponta em benchmarks.

27