← heapsort-ai

RLHF

9 items

ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

El contenido cuestiona por qué los grandes laboratorios de IA dominan los modelos más utilizados, como GPT y Claude, a pesar de la existencia de muchos modelos preentrenados de código abierto de escala similar. El autor sugiere que el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es clave para la superioridad de estos modelos y se pregunta por qué no sería más accesible para laboratorios más pequeños.

42
ARTICLEDEV.to AI·21/4/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Un ingeniero de software senior y entrenador de IA revela la realidad a menudo pasada por alto de la calidad del código generado por IA, afirmando que con frecuencia no cumple con los estándares de producción. Identifica patrones consistentes de fallas y explica su rol en el ciclo de Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), donde evalúa y mejora las salidas de los modelos.

27
RESEARCHarXiv CS.LG·13/4/2026

Distributionally Robust Token Optimization in RLHF

Para abordar la susceptibilidad de los LLMs a fallos por pequeños cambios en las instrucciones, especialmente en el razonamiento de varios pasos, los investigadores proponen la Optimización de Tokens Robusta Distribucionalmente (DRTO). Este enfoque combina el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) a nivel de token con la Optimización Robusta Distribucionalmente (DRO) para mejorar la consistencia bajo cambios de distribución, mostrando mejoras en benchmarks de razonamiento matemático.

27
ARTICLEDEV.to AI·hace 14d

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Este artículo, parte de una serie sobre Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), detalla cómo se utiliza un modelo de recompensa preentrenado para entrenar un modelo de IA original. Explica que se usan nuevas indicaciones, el modelo original genera respuestas y el modelo de recompensa proporciona señales de retroalimentación, permitiendo que el modelo original aprenda a generar resultados más útiles y alineados con el humano.

24