← heapsort-ai

Machine learning research

6 items

RESEARCHarXiv CS.LG·17/04/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas é um método que otimiza a mistura de dados para o treinamento intermediário de LLMs multimodais, decompondo os corpora em conceitos visuais e tipos de tarefa. Utilizando modelos proxy e um substituto de processo gaussiano, ele encontra receitas de dados de melhor desempenho para eficiência e generalização aprimoradas.

32
RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artigo analisa o comportamento interpretativo de LLMs para conformidade automatizada de código, utilizando análise de atribuição baseada em perturbação para comparar estratégias de fine-tuning e escalas de modelo. Os resultados indicam que o fine-tuning completo produz padrões de atribuição mais focados e que modelos maiores priorizam elementos textuais específicos.

28
RESEARCHarXiv CS.LG·21d atrás

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta pesquisa aborda o desafio da má atribuição de crédito em aprendizado por reforço para raciocínio multi-etapa com grandes modelos de linguagem, causado por recompensas terminais esparsas que levam a alta variância de gradiente e treinamento instável. Ela propõe uma estrutura de atribuição de crédito baseada em comparação contrafactual e a Otimização Implícita da Política de Comportamento (IBPO) para criar sinais de aprendizado sensíveis à etapa, melhorando significativamente a estabilidade e o desempenho do treinamento.

27
RESEARCHarXiv CS.AI·28d atrás

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artigo de pesquisa apresenta o Auto-Rubric as Reward (ARR), uma nova estrutura para alinhar modelos generativos multimodais com as preferências humanas. O ARR transforma o conhecimento implícito de preferência de um VLM em rubricas explícitas e específicas do prompt, decompondo o julgamento humano em dimensões de qualidade verificáveis para superar as limitações das abordagens tradicionais de RLHF.

27