← heapsort-ai

AI training

43 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]

Un conservateur d'actualités sur l'IA se demande si les jeux de simulation, tels que « Data Center », sont utilisés pour collecter des heuristiques humaines précieuses pour l'optimisation d'infrastructures réelles ou la formation d'IA. Il compare cette pratique aux recaptchas, suggérant que c'est une manière ingénieuse mais controversée d'externaliser des problèmes complexes aux joueurs.

43
ARTICLE↑ trendingReddit r/MachineLearning·24/04/2026

Nanochat vs Llama for training from scratch? [P]

L'utilisateur entraîne un modèle d'IA à partir de zéro et demande conseil sur la meilleure architecture, envisageant de passer de Nanochat (qui manque de compatibilité Transformers) à l'architecture Llama. L'objectif est un projet open source avec un nouvel ensemble de données plus grand, malgré les avantages de Nanochat.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

42
ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Une expérience a montré qu'un petit modèle d'IA peut s'entraîner à coder en inventant des problèmes, en les résolvant et en s'affinant sur ses propres corrections. Le modèle a atteint 80% sur HumanEval et a surpassé GPT-3.5 en mathématiques, en utilisant seulement un interpréteur Python comme juge.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

This isn’t X this is Y needs to die

L'auteur critique les modèles d'IA pour l'utilisation excessive de la phrase 'Ceci n'est pas X, c'est Y' et suggère que cette sortie répétitive devrait être supprimée lors de l'entraînement. Ce court article préconise l'amélioration de la qualité des modèles d'IA en éliminant ces réponses communes et formulées.

33
DOCDEV.to AI·il y a 5j

Gen AI Training in Chennai | Gen AI course

La formation en IA Générative à Chennai propose un apprentissage pratique en Ingénierie des Prompts, LLMs et projets d'IA, préparant les professionnels aux carrières informatiques modernes. Le cours met l'accent sur les applications concrètes et les technologies comme Python et OpenAI, faisant de Chennai un pôle d'IA en croissance.

29
RESEARCHarXiv CS.AI·09/05/2026

ZAYA1-8B Technical Report

ZAYA1-8B est un modèle de mélange d'experts (MoE) axé sur le raisonnement avec 700 millions de paramètres actifs, surpassant DeepSeek-R1-0528 sur plusieurs benchmarks de mathématiques et de codage. Entraîné à partir de zéro pour le raisonnement sur une plateforme AMD, il utilise une cascade de RL en quatre étapes pour le post-apprentissage.

29
DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Ce billet décrit la mise en œuvre de l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) pour améliorer les performances d'entraînement en introduisant la vérification et la transparence des signaux de récompense. Il aborde des techniques comme GRPO et les exemples de few-shot, illustrés avec l'ensemble de données GSM8K pour améliorer la précision de la résolution de problèmes mathématiques.

29
ARTICLEDEV.to AI·01/05/2026

From Mumbles to Memos: Teaching AI to Decipher Technician Voice Notes

Cet article aborde le goulot d'étranglement de productivité causé par le déchiffrage manuel des notes vocales des techniciens, proposant l'IA comme solution pour transformer les enregistrements de terrain en résumés professionnels. Il décrit une méthodologie, le 'Actionable Framework: The 3-Part Jargon List', pour entraîner l'IA à catégoriser des informations spécifiques à partir d'audio non structuré.

27
ARTICLEDEV.to AI·21/04/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Un ingénieur logiciel senior et formateur en IA révèle la réalité souvent ignorée de la qualité du code généré par l'IA, affirmant qu'il est fréquemment insuffisant pour la production. Il identifie des schémas d'échec constants et explique son rôle dans la boucle d'apprentissage par renforcement à partir de rétroaction humaine (RLHF), où il évalue et améliore les sorties du modèle.

27