reinforcement learning

153 items

DOCHugging Face (YouTube)·22/04/2026

RL for Agents Workshop - Deep Dive on Training Agents with RL and Open Source

Cet atelier propose une plongée approfondie dans la formation d'agents d'IA utilisant les principes de l'apprentissage par renforcement (RL). Il se concentre spécifiquement sur l'exploitation d'outils et de techniques open source pour le développement pratique d'agents.

Open Source reinforcement learning learning Training

RL for Agents Workshop - Deep Dive on Training Agents with RL and Open Source

RESEARCHQwen Blog·05/03/2025

QwQ-32B: Embracing the Power of Reinforcement Learning

O conteúdo aborda o potencial do Aprendizado por Reforço (RL) em escala para aprimorar o desempenho e as capacidades de raciocínio de modelos de IA, superando métodos convencionais. A pesquisa explora especificamente o impacto do RL na inteligência de Grandes Modelos de Linguagem (LLMs), citando exemplos como o DeepSeek R1.

model performance deep learning reinforcement learning large language models

RESEARCHQwen Blog·27/07/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

Scalability Policy optimization language models reinforcement learning

ARTICLEHugging Face Blog·10/03/2026

Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries

Ce contenu explore les leçons précieuses tirées d'une analyse de 16 bibliothèques de Reinforcement Learning (RL) open-source. Il vise à fournir des informations aux praticiens et développeurs travaillant avec des frameworks de RL.

Open Source AI Libraries reinforcement learning machine learning

DOCStatQuest (YouTube)·05/05/2025

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

Ce contenu explique clairement l'apprentissage par renforcement avec rétroaction humaine (RLHF), une technique cruciale utilisée pour aligner les grands modèles linguistiques avec les préférences humaines. Il détaille comment l'apport humain aide à affiner les modèles d'IA pour de meilleures performances et une meilleure sécurité.

reinforcement learning learning RLHF AI Explanation

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

DOCStatQuest (YouTube)·07/04/2025

Reinforcement Learning with Neural Networks: Essential Concepts

Ce contenu aborde les concepts essentiels de l'apprentissage par renforcement, en se concentrant sur son intégration avec les réseaux neuronaux. C'est un guide fondamental pour ceux qui cherchent à comprendre les bases de ce domaine de l'intelligence artificielle.

neural networks reinforcement learning learning

Reinforcement Learning with Neural Networks: Essential Concepts

RESEARCHStatQuest (YouTube)·14/04/2025

Reinforcement Learning with Neural Networks: Mathematical Details

Ce contenu examine les détails mathématiques de l'apprentissage par renforcement avec les réseaux neuronaux. Il explore les fondements théoriques et les algorithmes impliqués dans ce domaine de l'intelligence artificielle.

neural networks reinforcement learning machine learning mathematics

Reinforcement Learning with Neural Networks: Mathematical Details

DOCStatQuest (YouTube)·31/03/2025

Reinforcement Learning: Essential Concepts

Ce contenu aborde les concepts essentiels de l'apprentissage par renforcement, un domaine fondamental de l'intelligence artificielle. Il sert de guide pour comprendre les principes de base.

reinforcement learning learning machine learning AI

Reinforcement Learning: Essential Concepts

RESEARCHarXiv CS.AI·06/04/2026

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Este conteúdo descreve o projeto GrandCode, uma iniciativa de inteligência artificial que visa alcançar o nível de grandmaster em programação competitiva. Para isso, o sistema utiliza uma abordagem de aprendizado por reforço agêntico.

reinforcement learning Grandmaster AI competitive programming Agentic AI

ARTICLEDEV.to AI·il y a 14j

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Cet article, faisant partie d'une série sur l'apprentissage par renforcement avec feedback humain (RLHF), détaille comment un modèle de récompense pré-entraîné est utilisé pour former un modèle d'IA original. Il explique que de nouvelles invites sont utilisées, le modèle original génère des réponses, et le modèle de récompense fournit des signaux de feedback, permettant au modèle original d'apprendre à générer des sorties plus utiles et alignées sur les préférences humaines.

reinforcement learning learning AI training machine learning

NEWSDEV.to AI·14/04/2026

AI Contract Closing, RL Hunting & Fractal Analytics

Le Sovereign Node Omega v10087.0 unifie la télémétrie RF WiGLE, l'analyse fractale Copernicus CDSE et la chasse aux primes de bugs par RL dans un nœud Termux quantifié en périphérie. Dirigé par Samuel James Hiotis, ce projet vise à intégrer l'IA avancée et l'analyse de données dans un environnement de périphérie unifié.

reinforcement learning Telemetry Fractal Analysis AI

NEWSQwen Blog·24/07/2025

Qwen-MT: Where Speed Meets Smart Translation

A Qwen-MT introduz a atualização qwen-mt-turbo, que aprimora significativamente as capacidades de tradução e compreensão multilingue do modelo. Construído sobre o Qwen3 e utilizando aprendizado por reforço, oferece suporte a 92 idiomas com maior precisão e fluência.

Qwen-MT AI translation reinforcement learning language model

NEWSQwen Blog·23/03/2025

Qwen2.5-VL-32B: Smarter and Lighter

O texto anuncia o Qwen2.5-VL-32B-Instruct, um novo modelo da série Qwen2.5-VL otimizado com aprendizado por reforço e lançado como código aberto sob licença Apache 2.0. Este modelo se destaca por sua escala de 32 bilhões de parâmetros.

Open Source 32B Parameters reinforcement learning machine learning