← heapsort-ai

Model Alignment

3 items

RESEARCHarXiv CS.CL·hace 23h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

El artículo presenta TinyJudge, un framework que utiliza un conjunto de modelos de lenguaje pequeños especializados (0.6B) para proporcionar recompensas ligeras y de alta precisión para restricciones suaves e inverificables en el seguimiento de instrucciones por LLMs. Este enfoque aborda los cuellos de botella del "reward hacking" y el alto costo computacional de los métodos tradicionales de alineación de restricciones.

46
RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

27
RESEARCHarXiv CS.LG·27/4/2026

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi es un Modelo de Fundación Gráfica que mejora la eficiencia y la unificación de tareas mediante un marco de entrenamiento basado en metaaprendizaje. Se preentrena en episodios de pocas muestras que reflejan la evaluación posterior, abordando las limitaciones de los métodos tradicionales y logrando un rendimiento competitivo.

27