← heapsort-ai

RLHF

9 items

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

O conteúdo questiona por que grandes laboratórios de IA dominam os modelos mais usados, como GPT e Claude, apesar da existência de muitos modelos pré-treinados de código aberto em escala semelhante. O autor sugere que o Reinforcement Learning from Human Feedback (RLHF) é a chave para a superioridade desses modelos e pergunta por que isso não seria mais acessível para laboratórios menores.

42
ARTICLEDEV.to AI·21/04/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Um engenheiro de software sênior e treinador de IA revela a realidade frequentemente ignorada da qualidade do código gerado por IA, afirmando que muitas vezes não atende aos padrões de produção. Ele identifica padrões consistentes de falha e explica seu papel no ciclo de Aprendizado por Reforço a partir de Feedback Humano (RLHF), onde ele avalia e melhora as saídas dos modelos.

27
RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Para resolver a suscetibilidade dos LLMs a falhas por pequenas alterações nos prompts, especialmente em raciocínio multi-passos, pesquisadores propõem a Otimização de Token Distribuicionalmente Robusta (DRTO). Esta abordagem combina Reinforcement Learning a partir de Feedback Humano (RLHF) em nível de token com Otimização Distribuicionalmente Robusta (DRO) para aumentar a consistência sob mudanças de distribuição, demonstrando melhorias em benchmarks de raciocínio matemático.

27
ARTICLEDEV.to AI·14d atrás

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Este artigo, parte de uma série sobre Aprendizagem por Reforço com Feedback Humano (RLHF), detalha como um modelo de recompensa pré-treinado é usado para treinar um modelo de IA original. Ele explica que novos prompts são usados, o modelo original gera respostas e o modelo de recompensa fornece sinais de feedback, permitindo que o modelo original aprenda a gerar saídas mais úteis e alinhadas com o humano.

24