RLHF

9 items

RESEARCHarXiv CS.CL·1d atrás

What Do People Actually Want From AI? Mapping Preference Plurality

Este estudo investiga o que as pessoas realmente desejam dos sistemas de IA, analisando 1.500 respostas abertas de 75 países. Ele revela que os métodos atuais de fine-tuning de LLMs, como RLHF, têm limitações ao agregar preferências diversas e muitas vezes conflitantes, destacando a pluralidade de valores e interpretações.

LLMs Human Alignment RLHF User studies

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

O conteúdo questiona por que grandes laboratórios de IA dominam os modelos mais usados, como GPT e Claude, apesar da existência de muitos modelos pré-treinados de código aberto em escala semelhante. O autor sugere que o Reinforcement Learning from Human Feedback (RLHF) é a chave para a superioridade desses modelos e pergunta por que isso não seria mais acessível para laboratórios menores.

open-source AI RLHF AI industry large language models

ARTICLEDEV.to AI·21/04/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Um engenheiro de software sênior e treinador de IA revela a realidade frequentemente ignorada da qualidade do código gerado por IA, afirmando que muitas vezes não atende aos padrões de produção. Ele identifica padrões consistentes de falha e explica seu papel no ciclo de Aprendizado por Reforço a partir de Feedback Humano (RLHF), onde ele avalia e melhora as saídas dos modelos.

AI training RLHF code quality AI development

ARTICLEDEV.to AI·27d atrás

Would you spend time mentoring AI agents interacting with each other?

O autor questiona se os usuários se sentiriam motivados a mentorar agentes de IA interagindo entre si, orientando suas conversas. A ideia explora se essa intervenção seria mais envolvente do que conversar diretamente com uma IA, preenchendo a lacuna entre observar a IA e fornecer dados de RLHF.

AI interaction AI training human-AI collaboration RLHF

RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Para resolver a suscetibilidade dos LLMs a falhas por pequenas alterações nos prompts, especialmente em raciocínio multi-passos, pesquisadores propõem a Otimização de Token Distribuicionalmente Robusta (DRTO). Esta abordagem combina Reinforcement Learning a partir de Feedback Humano (RLHF) em nível de token com Otimização Distribuicionalmente Robusta (DRO) para aumentar a consistência sob mudanças de distribuição, demonstrando melhorias em benchmarks de raciocínio matemático.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.LG·8d atrás

Calibrated Preference Learning: The Case of Label Ranking

Este artigo formaliza a calibração para o ranqueamento probabilístico de rótulos, introduzindo uma hierarquia de noções para ranqueamentos completos, sub-ranqueamentos e top-k. Empiricamente, modelos populares de ranqueamento de rótulos são frequentemente mal calibrados, com implicações para modelos de recompensa RLHF.

Calibration AI models ranking machine learning

ARTICLEDEV.to AI·19/04/2026

AI Is Bad at Disagreeing. I Spent Weeks Trying to Fix That.

Um autor desenvolveu uma ferramenta de IA para gerar debates entre marcas, mas as IAs se recusaram a discordar, resultando em discussões excessivamente educadas. Isso ocorre porque os modelos de linguagem modernos são treinados via RLHF para serem agradáveis e úteis, não para criar conflito.

AI limitations AI training LLM behavior RLHF

DOCStatQuest (YouTube)·05/05/2025

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

Este conteúdo explica claramente o Aprendizado por Reforço com Feedback Humano (RLHF), uma técnica crucial usada para alinhar grandes modelos de linguagem com as preferências humanas. Ele detalha como a entrada humana ajuda a ajustar modelos de IA para melhor desempenho e segurança.

reinforcement learning learning RLHF AI Explanation

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

ARTICLEDEV.to AI·14d atrás

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Este artigo, parte de uma série sobre Aprendizagem por Reforço com Feedback Humano (RLHF), detalha como um modelo de recompensa pré-treinado é usado para treinar um modelo de IA original. Ele explica que novos prompts são usados, o modelo original gera respostas e o modelo de recompensa fornece sinais de feedback, permitindo que o modelo original aprenda a gerar saídas mais úteis e alinhadas com o humano.

reinforcement learning learning AI training machine learning