Machine learning research

6 items

RESEARCHarXiv CS.LG·17/04/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas é um método que otimiza a mistura de dados para o treinamento intermediário de LLMs multimodais, decompondo os corpora em conceitos visuais e tipos de tarefa. Utilizando modelos proxy e um substituto de processo gaussiano, ele encontra receitas de dados de melhor desempenho para eficiência e generalização aprimoradas.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artigo analisa o comportamento interpretativo de LLMs para conformidade automatizada de código, utilizando análise de atribuição baseada em perturbação para comparar estratégias de fine-tuning e escalas de modelo. Os resultados indicam que o fine-tuning completo produz padrões de atribuição mais focados e que modelos maiores priorizam elementos textuais específicos.

model interpretability LLMs Machine learning research Fine-tuning

RESEARCHarXiv CS.AI·29d atrás

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Uma nova pesquisa revela que o viés de posição em modelos de raciocínio, como o Chain-of-thought, aumenta com o comprimento da trajetória de raciocínio. Este efeito foi observado em diversas configurações de modelos e benchmarks, sugerindo que "pensar mais" pode exacerbar certos tipos de viés.

AI bias Natural Language Processing reasoning models Machine learning research

RESEARCHarXiv CS.LG·21d atrás

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta pesquisa aborda o desafio da má atribuição de crédito em aprendizado por reforço para raciocínio multi-etapa com grandes modelos de linguagem, causado por recompensas terminais esparsas que levam a alta variância de gradiente e treinamento instável. Ela propõe uma estrutura de atribuição de crédito baseada em comparação contrafactual e a Otimização Implícita da Política de Comportamento (IBPO) para criar sinais de aprendizado sensíveis à etapa, melhorando significativamente a estabilidade e o desempenho do treinamento.

reinforcement learning AI training Machine learning research large language models

RESEARCHarXiv CS.AI·28d atrás

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artigo de pesquisa apresenta o Auto-Rubric as Reward (ARR), uma nova estrutura para alinhar modelos generativos multimodais com as preferências humanas. O ARR transforma o conhecimento implícito de preferência de um VLM em rubricas explícitas e específicas do prompt, decompondo o julgamento humano em dimensões de qualidade verificáveis para superar as limitações das abordagens tradicionais de RLHF.

multimodal models AI alignment reward learning Machine learning research

RESEARCHYannic Kilcher (YouTube)·27/12/2025

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)

Este conteúdo apresenta uma análise de um artigo de pesquisa que explora o modelo TiDAR. O modelo integra conceitos de difusão e autorregressão para processamento.

Diffusion Models AI models Paper analysis Machine learning research

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)