← heapsort-ai

Machine learning research

6 items

RESEARCHarXiv CS.LG·17/04/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas propose une méthode consciente de l'incertitude pour optimiser les mélanges de données lors du pré-entraînement des LLM multimodaux, en décomposant les corpus selon des concepts visuels et des types de tâches. En utilisant des modèles proxy et un substitut de processus gaussien, il découvre des recettes de données plus performantes pour une meilleure efficacité et généralisation.

32
RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Cet article analyse les comportements interprétatifs des LLM pour la conformité automatisée du code, en utilisant une analyse d'attribution basée sur la perturbation pour comparer différentes stratégies de fine-tuning et échelles de modèle. Les résultats montrent que le fine-tuning complet produit des motifs d'attribution plus ciblés, et que les modèles plus grands priorisent des éléments textuels spécifiques.

28
RESEARCHarXiv CS.AI·il y a 29j

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Une nouvelle recherche indique que le biais de position dans les modèles de raisonnement, tels que Chain-of-thought, augmente avec la longueur de la trajectoire de raisonnement. Cet effet a été observé dans diverses configurations de modèles et benchmarks, suggérant que « penser davantage » peut exacerber certains biais.

27
RESEARCHarXiv CS.LG·il y a 21j

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Cette recherche aborde le défi de la mauvaise attribution de crédit dans l'apprentissage par renforcement pour le raisonnement en plusieurs étapes avec les grands modèles de langage, causée par des récompenses terminales éparses entraînant une variance de gradient élevée et une formation instable. Elle propose un cadre d'attribution de crédit basé sur la comparaison contrefactuelle et l'optimisation implicite de la politique de comportement (IBPO) pour créer des signaux d'apprentissage sensibles aux étapes, améliorant considérablement la stabilité et les performances de l'entraînement.

27
RESEARCHarXiv CS.AI·il y a 28j

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Cet article de recherche introduit Auto-Rubric as Reward (ARR), un nouveau cadre pour aligner les modèles génératifs multimodaux avec les préférences humaines. ARR externalise les connaissances de préférence implicites d'un VLM en rubriques explicites et spécifiques à l'invite, décomposant le jugement humain en dimensions de qualité vérifiables indépendamment pour surmonter les limites des approches RLHF traditionnelles.

27