Machine learning research

6 items

RESEARCHarXiv CS.LG·17/4/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas presenta un método consciente de la incertidumbre para optimizar mezclas de datos en el entrenamiento intermedio de LLMs multimodales, descomponiendo los corpora en conceptos de imagen y tipos de tarea. Utilizando modelos proxy y un sustituto de proceso gaussiano, encuentra recetas de datos de mejor rendimiento para una mayor eficiencia y generalización.

data optimization multimodal AI Uncertainty Quantification Machine learning research

RESEARCHarXiv CS.CL·20/4/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artículo analiza los comportamientos interpretativos de los LLM para el cumplimiento automatizado de códigos, utilizando un análisis de atribución basado en perturbaciones para comparar diferentes estrategias de ajuste fino y escalas de modelo. Los resultados muestran que el ajuste fino completo produce patrones de atribución más enfocados, y los modelos más grandes priorizan elementos textuales específicos.

model interpretability LLMs Machine learning research Fine-tuning

RESEARCHarXiv CS.AI·hace 29d

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Una nueva investigación revela que el sesgo de posición en modelos de razonamiento, como Chain-of-thought, escala con la longitud de la trayectoria de razonamiento. Este efecto se observó en múltiples configuraciones de modelos y benchmarks, sugiriendo que "pensar más" puede exacerbar ciertos sesgos.

AI bias Natural Language Processing reasoning models Machine learning research

RESEARCHarXiv CS.LG·hace 21d

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta investigación aborda el desafío de la mala asignación de crédito en el aprendizaje por refuerzo para el razonamiento multi-paso con grandes modelos de lenguaje, causado por recompensas terminales dispersas que conducen a una alta varianza de gradiente y un entrenamiento inestable. Propone un marco de asignación de crédito basado en comparación contrafactual y la Optimización Implícita de la Política de Comportamiento (IBPO) para crear señales de aprendizaje sensibles al paso, mejorando significativamente la estabilidad y el rendimiento del entrenamiento.

reinforcement learning AI training Machine learning research large language models

RESEARCHarXiv CS.AI·hace 28d

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artículo de investigación presenta Auto-Rubric as Reward (ARR), un marco novedoso para alinear modelos generativos multimodales con las preferencias humanas. ARR externaliza el conocimiento de preferencias implícitas de un VLM en rúbricas explícitas y específicas del prompt, descomponiendo el juicio humano en dimensiones de calidad verificables de forma independiente para superar las limitaciones de los enfoques tradicionales de RLHF.

multimodal models AI alignment reward learning Machine learning research

RESEARCHYannic Kilcher (YouTube)·27/12/2025

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)

Este contenido presenta un análisis de un artículo de investigación que explora el modelo TiDAR. El modelo integra conceptos de difusión y autorregresión para su procesamiento.

Diffusion Models AI models Paper analysis Machine learning research

TiDAR: Think in Diffusion, Talk in Autoregression (Paper Analysis)