Machine learning research

6 items

RESEARCHarXiv CS.LG·4/17/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas introduces an uncertainty-aware method for optimizing data mixtures in multimodal LLM midtraining by decomposing corpora along image concepts and task supervision. Using proxy models and a Gaussian-process surrogate, it finds better-performing data recipes for improved sample efficiency and generalization.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·4/20/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

This paper analyzes the interpretive behaviors of LLMs for automated code compliance using perturbation-based attribution analysis, comparing different fine-tuning strategies and model scales. Results show full fine-tuning yields more focused attribution patterns, and larger models prioritize specific textual elements like numerical constraints.

model interpretability LLMs Machine learning research Fine-tuning

RESEARCHarXiv CS.AI·29d ago

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

New research indicates that position bias in reasoning models, such as Chain-of-thought, scales with the length of the reasoning trajectory. This effect was observed across various model configurations and benchmarks, suggesting that "more thinking" can exacerbate certain biases.

AI bias natural language processing reasoning models Machine learning research

RESEARCHarXiv CS.LG·21d ago

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

This research addresses the challenge of poor credit assignment in reinforcement learning for multi-step reasoning with large language models, caused by sparse terminal rewards leading to high gradient variance and unstable training. It proposes a counterfactual comparison-based framework and Implicit Behavior Policy Optimization (IBPO) to create step-sensitive learning signals, significantly improving training stability and performance.

reinforcement learning AI training Machine learning research large language models

RESEARCHarXiv CS.AI·28d ago

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

This research paper introduces Auto-Rubric as Reward (ARR), a novel framework for aligning multimodal generative models with human preferences. ARR externalizes a VLM's implicit preference knowledge into explicit, prompt-specific rubrics, decomposing human judgment into independently verifiable quality dimensions to overcome limitations of traditional RLHF approaches.

multimodal models AI alignment reward learning Machine learning research

RESEARCHYannic Kilcher (YouTube)·12/27/2025

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)

This content provides an analysis of a research paper exploring the TiDAR model. The model integrates concepts of diffusion and autoregression for processing.

Diffusion Models AI models Paper analysis Machine learning research

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)