← heapsort-ai

Machine learning research

6 items

RESEARCHarXiv CS.LG·17/4/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas presenta un método consciente de la incertidumbre para optimizar mezclas de datos en el entrenamiento intermedio de LLMs multimodales, descomponiendo los corpora en conceptos de imagen y tipos de tarea. Utilizando modelos proxy y un sustituto de proceso gaussiano, encuentra recetas de datos de mejor rendimiento para una mayor eficiencia y generalización.

32
RESEARCHarXiv CS.CL·20/4/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artículo analiza los comportamientos interpretativos de los LLM para el cumplimiento automatizado de códigos, utilizando un análisis de atribución basado en perturbaciones para comparar diferentes estrategias de ajuste fino y escalas de modelo. Los resultados muestran que el ajuste fino completo produce patrones de atribución más enfocados, y los modelos más grandes priorizan elementos textuales específicos.

28
RESEARCHarXiv CS.LG·hace 21d

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta investigación aborda el desafío de la mala asignación de crédito en el aprendizaje por refuerzo para el razonamiento multi-paso con grandes modelos de lenguaje, causado por recompensas terminales dispersas que conducen a una alta varianza de gradiente y un entrenamiento inestable. Propone un marco de asignación de crédito basado en comparación contrafactual y la Optimización Implícita de la Política de Comportamiento (IBPO) para crear señales de aprendizaje sensibles al paso, mejorando significativamente la estabilidad y el rendimiento del entrenamiento.

27
RESEARCHarXiv CS.AI·hace 28d

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artículo de investigación presenta Auto-Rubric as Reward (ARR), un marco novedoso para alinear modelos generativos multimodales con las preferencias humanas. ARR externaliza el conocimiento de preferencias implícitas de un VLM en rúbricas explícitas y específicas del prompt, descomponiendo el juicio humano en dimensiones de calidad verificables de forma independiente para superar las limitaciones de los enfoques tradicionales de RLHF.

27