AI training

43 items

ARTICLE↑ trendingReddit r/MachineLearning·15/4/2026

Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]

Un curador de noticias de IA se pregunta si los juegos de simulación, como "Data Center", se están utilizando para recopilar heurísticas humanas valiosas para la optimización de infraestructuras reales o el entrenamiento de IA. Compara la práctica con los recaptchas, sugiriendo que es una forma ingeniosa pero controvertida de externalizar problemas complejos a los jugadores.

Ethics of AI gamification sim-to-real AI training

ARTICLE↑ trendingHacker News (AI)·hace 13d

Training our own AI models

Este artículo aborda el proceso y las consideraciones para entrenar modelos de IA personalizados. Explora los desafíos y beneficios de desarrollar capacidades internas de inteligencia artificial.

AI training machine learning data science custom models

ARTICLE↑ trendingHacker News (AI)·hace 7d

Google Is Quietly Buying Code from Play Store Developers to Train AI

Google está supuestamente comprando código de desarrolladores de la Play Store para entrenar sus modelos de IA, una práctica que plantea preguntas sobre la privacidad y el consentimiento. La empresa ofrece pagos a cambio de acceso al código, lo que podría afectar el ecosistema de desarrolladores.

ethics AI training Google Play Store

ARTICLE↑ trendingReddit r/MachineLearning·24/4/2026

Nanochat vs Llama for training from scratch? [P]

El usuario está entrenando un modelo de IA desde cero y busca consejo sobre la mejor arquitectura, considerando cambiar de Nanochat (que carece de compatibilidad con Transformers) a la arquitectura Llama. El objetivo es un proyecto de código abierto con un conjunto de datos nuevo y más grande, a pesar de las ventajas de Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.

evaluation reinforcement learning AI training summarization

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

cloud storage GPU AI training HPC

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 26d

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Un experimento demostró que un pequeño modelo de IA puede entrenarse a sí mismo para programar, inventando problemas, resolviéndolos y afinando sus propias correcciones. El modelo alcanzó el 80% en HumanEval y superó a GPT-3.5 en matemáticas, utilizando solo un intérprete de Python como juez.

self-correction AI training Benchmarking code generation

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

NEWS↑ trendingReddit r/LocalLLaMA·6/5/2026

ZAYA1-8B: Frontier intelligence density, trained on AMD

Se ha anunciado ZAYA1-8B, un nuevo modelo de IA que exhibe una densidad de inteligencia de vanguardia. Fue notablemente entrenado utilizando hardware de AMD.

AI training AMD AI model hardware

ZAYA1-8B: Frontier intelligence density, trained on AMD

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

This isn’t X this is Y needs to die

El autor critica a los modelos de IA por usar excesivamente la frase 'Esto no es X, esto es Y' y sugiere que esta salida repetitiva debería ser eliminada durante el entrenamiento. Esta breve publicación aboga por mejorar la calidad de los modelos de IA eliminando respuestas tan comunes y formuladas.

AI models AI training natural language generation

ARTICLEDEV.to AI·hace 3d

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Agent Lightning es un framework diseñado para entrenar cualquier agente de IA utilizando Reinforcement Learning. Su objetivo es simplificar y acelerar el proceso de desarrollo y optimización de agentes inteligentes.

reinforcement learning AI training machine learning AI agents

DOCDEV.to AI·hace 5d

Gen AI Training in Chennai | Gen AI course

La formación en IA Generativa en Chennai ofrece aprendizaje práctico en Ingeniería de Prompts, LLMs y proyectos de IA, preparando a los profesionales para carreras de TI modernas. El curso se centra en aplicaciones del mundo real y tecnologías como Python y OpenAI, consolidando a Chennai como un centro de IA en crecimiento.

prompt engineering learning AI training Chennai

RESEARCHarXiv CS.AI·9/5/2026

ZAYA1-8B Technical Report

ZAYA1-8B es un modelo de mezcla de expertos (MoE) enfocado en el razonamiento con 700M de parámetros activos, superando a DeepSeek-R1-0528 en benchmarks de matemáticas y codificación. Fue entrenado desde cero para el razonamiento en una plataforma AMD y utiliza una cascada de RL de cuatro etapas para el post-entrenamiento.

AI models AI training machine learning Benchmarking

RESEARCHarXiv CS.AI·hace 20d

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Este artículo presenta Learn-by-Wire Guard (LBW-Guard), una capa de gobernanza de control de entrenamiento autónomo para modelos de lenguaje. Su objetivo es mejorar la estabilidad y eficiencia del entrenamiento, reduciendo significativamente la perplejidad final.

language models deep learning AI training model stability

DOCAWS Machine Learning Blog·7/5/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Esta publicación detalla la implementación del aprendizaje por refuerzo basado en recompensas verificables (RLVR) para mejorar el rendimiento del entrenamiento, asegurando transparencia y corrección en las señales de recompensa. Cubre técnicas como GRPO y ejemplos de pocas tomas, demostrados con el conjunto de datos GSM8K para mejorar la precisión en la resolución de problemas matemáticos.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.CL·hace 5d

POLARIS: Guiding Small Models to Write Long Stories

POLARIS es una nueva receta GRPO que emplea un LLM como juez y la inyección de referencias humanas para entrenar modelos pequeños. Mejora significativamente su capacidad para escribir historias largas y de alta calidad, haciendo que un modelo de 9B sea competitivo con modelos mucho más grandes.

story generation AI training machine learning creative writing

ARTICLEDEV.to AI·1/5/2026

From Mumbles to Memos: Teaching AI to Decipher Technician Voice Notes

Este artículo aborda el cuello de botella de productividad causado por el descifrado manual de notas de voz de técnicos, proponiendo la IA como solución para transformar las grabaciones de campo en resúmenes profesionales. Describe una metodología, el 'Actionable Framework: The 3-Part Jargon List', para entrenar a la IA a categorizar información específica de audios no estructurados.

workflow automation AI training productivity natural language processing

NEWSDEV.to AI·hace 19d

Meta Trains Coding AI on Engineers' Work Traces as 8K Jobs Cut

Meta está entrenando una IA de codificación con los rastros de trabajo de sus ingenieros mientras recorta 8.000 puestos de trabajo, según un audio filtrado. El CEO Mark Zuckerberg argumenta que los modelos aprenden mejor observando a "personas realmente inteligentes" realizar tareas.

future-of-work AI training coding AI Meta

ARTICLEDEV.to AI·21/4/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Un ingeniero de software senior y entrenador de IA revela la realidad a menudo pasada por alto de la calidad del código generado por IA, afirmando que con frecuencia no cumple con los estándares de producción. Identifica patrones consistentes de fallas y explica su rol en el ciclo de Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), donde evalúa y mejora las salidas de los modelos.

AI training RLHF code quality AI development

DOCHugging Face Blog·hace 29d

Building Blocks for Foundation Model Training and Inference on AWS

El contenido trata sobre los bloques de construcción esenciales para el entrenamiento e inferencia de modelos de fundación en la plataforma AWS. Explora los componentes necesarios para implementar y operar estos modelos.

AI training machine learning Foundation Models AWS

ARTICLEThe Verge AI·hace 11d

Tech companies desperately want to film you doing chores

Una startup de entrenamiento de IA, Shift, ofrece limpieza de hogares gratuita en Nueva York a cambio de grabaciones del trabajo. El objetivo es recopilar datos de video del trabajo doméstico para entrenar robots para la automatización futura. El servicio planea expandirse a otras ciudades, como Londres.

future-of-work AI training robotics automation