AI training

43 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]

Un conservateur d'actualités sur l'IA se demande si les jeux de simulation, tels que « Data Center », sont utilisés pour collecter des heuristiques humaines précieuses pour l'optimisation d'infrastructures réelles ou la formation d'IA. Il compare cette pratique aux recaptchas, suggérant que c'est une manière ingénieuse mais controversée d'externaliser des problèmes complexes aux joueurs.

Ethics of AI gamification sim-to-real AI training

ARTICLE↑ trendingHacker News (AI)·il y a 13j

Training our own AI models

Cet article traite du processus et des considérations impliquées dans la formation de modèles d'IA personnalisés. Il couvre les défis et les avantages du développement de capacités d'intelligence artificielle en interne.

AI training machine learning data science custom models

ARTICLE↑ trendingHacker News (AI)·il y a 7j

Google Is Quietly Buying Code from Play Store Developers to Train AI

Google achèterait discrètement du code auprès de développeurs du Play Store pour entraîner ses modèles d'IA, une pratique qui soulève des questions de confidentialité et de consentement. L'entreprise propose des paiements en échange de l'accès au code, ce qui pourrait impacter l'écosystème des développeurs.

ethics AI training Google Play Store

ARTICLE↑ trendingReddit r/MachineLearning·24/04/2026

Nanochat vs Llama for training from scratch? [P]

L'utilisateur entraîne un modèle d'IA à partir de zéro et demande conseil sur la meilleure architecture, envisageant de passer de Nanochat (qui manque de compatibilité Transformers) à l'architecture Llama. L'objectif est un projet open source avec un nouvel ensemble de données plus grand, malgré les avantages de Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

evaluation reinforcement learning AI training summarization

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

cloud storage GPU AI training HPC

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Une expérience a montré qu'un petit modèle d'IA peut s'entraîner à coder en inventant des problèmes, en les résolvant et en s'affinant sur ses propres corrections. Le modèle a atteint 80% sur HumanEval et a surpassé GPT-3.5 en mathématiques, en utilisant seulement un interpréteur Python comme juge.

self-correction AI training Benchmarking code generation

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

NEWS↑ trendingReddit r/LocalLLaMA·06/05/2026

ZAYA1-8B: Frontier intelligence density, trained on AMD

ZAYA1-8B, un nouveau modèle d'IA présentant une densité d'intelligence de pointe, a été annoncé. Il a été notamment entraîné sur du matériel AMD.

AI training AMD AI model hardware

ZAYA1-8B: Frontier intelligence density, trained on AMD

ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

This isn’t X this is Y needs to die

L'auteur critique les modèles d'IA pour l'utilisation excessive de la phrase 'Ceci n'est pas X, c'est Y' et suggère que cette sortie répétitive devrait être supprimée lors de l'entraînement. Ce court article préconise l'amélioration de la qualité des modèles d'IA en éliminant ces réponses communes et formulées.

AI models AI training natural language generation

ARTICLEDEV.to AI·il y a 3j

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Agent Lightning est un framework conçu pour entraîner n'importe quel agent d'IA en utilisant l'apprentissage par renforcement. Il vise à simplifier et à accélérer le processus de développement et d'optimisation des agents intelligents.

reinforcement learning AI training machine learning AI agents

DOCDEV.to AI·il y a 5j

Gen AI Training in Chennai | Gen AI course

La formation en IA Générative à Chennai propose un apprentissage pratique en Ingénierie des Prompts, LLMs et projets d'IA, préparant les professionnels aux carrières informatiques modernes. Le cours met l'accent sur les applications concrètes et les technologies comme Python et OpenAI, faisant de Chennai un pôle d'IA en croissance.

prompt engineering learning AI training Chennai

RESEARCHarXiv CS.AI·09/05/2026

ZAYA1-8B Technical Report

ZAYA1-8B est un modèle de mélange d'experts (MoE) axé sur le raisonnement avec 700 millions de paramètres actifs, surpassant DeepSeek-R1-0528 sur plusieurs benchmarks de mathématiques et de codage. Entraîné à partir de zéro pour le raisonnement sur une plateforme AMD, il utilise une cascade de RL en quatre étapes pour le post-apprentissage.

AI models AI training machine learning Benchmarking

RESEARCHarXiv CS.AI·il y a 20j

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Cet article introduit Learn-by-Wire Guard (LBW-Guard), une couche de gouvernance de contrôle d'entraînement autonome pour les modèles de langage. Il vise à améliorer la stabilité et l'efficacité de l'entraînement, réduisant considérablement la perplexité finale.

language models deep learning AI training model stability

DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Ce billet décrit la mise en œuvre de l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) pour améliorer les performances d'entraînement en introduisant la vérification et la transparence des signaux de récompense. Il aborde des techniques comme GRPO et les exemples de few-shot, illustrés avec l'ensemble de données GSM8K pour améliorer la précision de la résolution de problèmes mathématiques.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.CL·il y a 5j

POLARIS: Guiding Small Models to Write Long Stories

POLARIS est une nouvelle recette GRPO utilisant un LLM juge et l'injection de références humaines pour entraîner de petits modèles. Elle améliore considérablement leur capacité à écrire des histoires longues et de haute qualité, rendant un modèle de 9B compétitif avec des modèles frontières bien plus grands.

story generation AI training machine learning creative writing

ARTICLEDEV.to AI·01/05/2026

From Mumbles to Memos: Teaching AI to Decipher Technician Voice Notes

Cet article aborde le goulot d'étranglement de productivité causé par le déchiffrage manuel des notes vocales des techniciens, proposant l'IA comme solution pour transformer les enregistrements de terrain en résumés professionnels. Il décrit une méthodologie, le 'Actionable Framework: The 3-Part Jargon List', pour entraîner l'IA à catégoriser des informations spécifiques à partir d'audio non structuré.

workflow automation AI training productivity natural language processing

NEWSDEV.to AI·il y a 19j

Meta Trains Coding AI on Engineers' Work Traces as 8K Jobs Cut

Meta forme une IA de codage en utilisant les traces de travail de ses ingénieurs tout en supprimant 8 000 emplois, selon un audio divulgué. Le PDG Mark Zuckerberg soutient que les modèles apprennent mieux en observant des "personnes vraiment intelligentes" effectuer des tâches.

future-of-work AI training coding AI Meta

ARTICLEDEV.to AI·21/04/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Un ingénieur logiciel senior et formateur en IA révèle la réalité souvent ignorée de la qualité du code généré par l'IA, affirmant qu'il est fréquemment insuffisant pour la production. Il identifie des schémas d'échec constants et explique son rôle dans la boucle d'apprentissage par renforcement à partir de rétroaction humaine (RLHF), où il évalue et améliore les sorties du modèle.

AI training RLHF code quality AI development

DOCHugging Face Blog·il y a 29j

Building Blocks for Foundation Model Training and Inference on AWS

Le contenu aborde les éléments essentiels pour l'entraînement et l'inférence des modèles de fondation sur la plateforme AWS. Il explore les composants nécessaires à l'implémentation et à l'exploitation de ces modèles.

AI training machine learning Foundation Models AWS

ARTICLEThe Verge AI·il y a 11j

Tech companies desperately want to film you doing chores

Une startup de formation en IA, Shift, propose un nettoyage domestique gratuit à New York en échange de séquences vidéo du travail effectué. L'objectif est de collecter des données vidéo sur le travail domestique pour entraîner des robots à l'automatisation future. Le service prévoit de s'étendre à d'autres villes, dont Londres.

future-of-work AI training robotics automation