Machine learning research

6 items

RESEARCHarXiv CS.LG·4/17/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas führt eine unsicherheitsbewusste Methode zur Optimierung von Datenmischungen im Midtraining multimodaler LLMs ein, indem es Korpora entlang von Bildkonzepten und Aufgabenüberwachung zerlegt. Mithilfe von Proxy-Modellen und einem Gaußschen Prozess-Surrogat findet es leistungsfähigere Datenrezepte für verbesserte Stichprobenökonomie und Generalisierung.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·4/20/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Dieses Papier analysiert das Interpretationsverhalten von LLMs für die automatisierte Code-Compliance mittels perturbationsbasierter Attributionsanalyse, wobei verschiedene Fine-Tuning-Strategien und Modellgrößen verglichen werden. Die Ergebnisse zeigen, dass vollständiges Fine-Tuning fokussiertere Attributionsmuster erzeugt und größere Modelle spezifische Textelemente priorisieren.

model interpretability LLMs Machine learning research Fine-tuning

RESEARCHarXiv CS.AI·vor 29T

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Eine neue Forschung zeigt, dass die Positionsverzerrung in Schlussfolgerungsmodellen, wie Chain-of-thought, mit der Länge der Schlussfolgerungstrajektorie skaliert. Dieser Effekt wurde über verschiedene Modellkonfigurationen und Benchmarks hinweg beobachtet, was darauf hindeutet, dass „mehr Nachdenken“ bestimmte Verzerrungen verstärken kann.

AI bias natural language processing reasoning models Machine learning research

RESEARCHarXiv CS.LG·vor 21T

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Diese Forschung befasst sich mit dem Problem der schlechten Kreditzuweisung im Reinforcement Learning für mehrstufiges Denken mit großen Sprachmodellen, verursacht durch spärliche Endbelohnungen, die zu hoher Gradientenvarianz und instabilem Training führen. Sie schlägt einen kontrafaktischen Vergleichs-basierten Kreditzuweisungsrahmen und die Implizite Verhaltensrichtlinienoptimierung (IBPO) vor, um schrittsensitive Lernsignale zu erzeugen, was die Trainingsstabilität und Leistung erheblich verbessert.

reinforcement learning AI training Machine learning research large language models

RESEARCHarXiv CS.AI·vor 28T

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Diese Forschungsarbeit stellt Auto-Rubric as Reward (ARR) vor, ein neuartiges Framework zur Ausrichtung multimodaler generativer Modelle an menschlichen Präferenzen. ARR externalisiert das implizite Präferenzwissen eines VLM in explizite, prompt-spezifische Rubriken, wodurch menschliches Urteilsvermögen in unabhängig überprüfbare Qualitätsdimensionen zerlegt wird, um Einschränkungen traditioneller RLHF-Ansätze zu überwinden.

multimodal models AI alignment reward learning Machine learning research

RESEARCHYannic Kilcher (YouTube)·12/27/2025

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)

Dieser Inhalt bietet eine Analyse eines Forschungsartikels, der das TiDAR-Modell untersucht. Das Modell integriert Konzepte von Diffusion und Autoregression für die Verarbeitung.

Diffusion Models AI models Paper analysis Machine learning research

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)