model training

16 items

RESEARCH↑ trendingReddit r/MachineLearning·24/4/2026

New project about llm hallucination [P]

Este contenido introduce un nuevo proyecto secundario y su repositorio de GitHub, centrado en mitigar la alucinación de LLM mediante un novedoso método de muestreo contrastivo y entrenamiento selectivo. La idea central trata la alucinación como un problema de preferencia, utilizando muestras negativas auto-generadas y un aprendizaje basado en divergencia y con compuertas para promover respuestas correctas y suprimir las incorrectas.

hallucination model training natural language processing AI safety

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un desarrollador entrenó modelos de deep learning basados en transformadores para jugar ajedrez como humanos en varios rangos de rating, incluyendo la predicción del tiempo de pensamiento. Los modelos fueron entrenados con datos de Lichess y lograron una precisión comparable a MAIA-3, a pesar de su pequeño tamaño.

AI models deep learning chess AI model training

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 25d

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview es un modelo de fundación multimodal científico eficiente de 35B que logra un rendimiento comparable al de modelos de trillones de parámetros al explorar el escalado de tareas y el entrenamiento de cadena completa. Se destaca en cientos de tareas científicas profesionales, manteniendo un fuerte razonamiento general, comprensión multimodal y capacidades de agente.

AI models multimodal AI model training Foundation Models

internlm/Intern-S2-Preview · Hugging Face

ARTICLE↑ trendingReddit r/MachineLearning·7/5/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un usuario con un dataset de 150 mil imágenes de heces busca las mejores prácticas para entrenar un modelo de visión artificial. Cuestiona su flujo de trabajo actual de verificación manual y busca enfoques más inteligentes y escalables para garantizar la calidad del dataset y las anotaciones.

dataset-quality model training machine learning computer vision

RESEARCHarXiv CS.LG·hace 20d

Simply Stabilizing the Loop via Fully Looped Transformer

Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.

neural networks AI architecture deep learning model training

RESEARCHarXiv CS.LG·1/5/2026

Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index

Se propone un nuevo monitor topológico, el Índice de Colapso (CI), para detectar tempranamente el colapso representacional en el entrenamiento neural. Utiliza actualizaciones rápidas e incrementales para proporcionar una señal de alerta temprana de baja latencia para intervenciones en el ajuste fino de LLM y el entrenamiento de KGE.

neural networks monitoring topology model training

RESEARCHDEV.to AI·6/5/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Este contenido explora técnicas avanzadas para optimizar el entrenamiento de redes neuronales, centrándose específicamente en el procesamiento de micro-lotes. Detalla la aplicación de normalización de canal de lote y estandarización de peso para mejorar el rendimiento y la estabilidad del modelo en escenarios con tamaños de lote pequeños.

neural networks batch-normalization Optimization deep learning

RESEARCHarXiv CS.CL·4/5/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT es un nuevo método que entrena pequeños modelos de lenguaje (SLM) para producir razonamiento fiel y paso a paso para preguntas de tablas, fundamentado con citas a nivel de celda. Mejora significativamente la fidelidad (3.7x) y logra una validez de citación casi perfecta al integrar la atribución en el proceso de razonamiento.

language models attribution Table Reasoning model training

RESEARCHarXiv CS.LG·21/4/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Esta investigación descubre que el ajuste fino LoRA provoca 'desaprendizaje' en ejemplos controvertidos, donde una alta discrepancia de anotadores se correlaciona con un aumento de la pérdida durante el entrenamiento. Este patrón es distinto del ajuste fino completo y se observa consistentemente en varios modelos y conjuntos de datos.

model training machine learning NLP Fine-tuning

ARTICLEDEV.to AI·hace 6d

hat Makes a Good SFT Sample (And Why Most Synthetic Datasets Get It Wrong)

Muchos modelos de lenguaje afinados resultan en un peor rendimiento debido a datos sintéticos de baja calidad. El problema no reside en la configuración del entrenamiento, sino en la falta de mecanismos para filtrar errores durante la generación de datos sintéticos.

synthetic data LLMs model training Fine-tuning

DOCAWS Machine Learning Blog·hace 7d

The art and science of hyperparameter optimization on Amazon Nova Forge

Esta publicación detalla la optimización de hiperparámetros en Amazon Nova Forge, explicando cómo equilibrar la mejora del rendimiento específico del dominio sin degradar las capacidades generales del modelo. Cubre estrategias de personalización, configuración de parámetros de entrenamiento y cómo evitar errores comunes que conducen a ejecuciones de entrenamiento inútiles.

Amazon Nova Forge hyperparameter optimization learning model training

RESEARCHDEV.to AI·10/5/2026

Distillation that keeps confidence honest

La destilación en política (OPD) tradicional provoca que los modelos estudiantes más pequeños muestren un exceso de confianza debido al acceso del modelo maestro a un contexto privilegiado. Un nuevo trabajo formaliza esta discrepancia y propone CaOPD para corregir esta ilusión de certeza sin sacrificar las ganancias de precisión.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.AI·6/5/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Esta investigación presenta Terminus-4B, un modelo de lenguaje pequeño ajustado, para explorar su capacidad de reemplazar LLMs de frontera en tareas de ejecución de terminal agéntico. El modelo es post-entrenado usando SFT y RL con recompensas basadas en rúbricas de LLM como juez.

LLMs model training performance evaluation Small Language Models

ARTICLEThe AI Epiphany (YouTube)·16/9/2024

Imbue - training a 70B model from scratch! (w/ Bowei - head of infra)

Este contenido trata sobre el ambicioso proyecto de Imbue de entrenar un modelo de IA de 70B completamente desde cero. Cuenta con Bowei, jefe de infraestructura, quien brinda información sobre los desafíos y procesos involucrados en una empresa de tan gran escala.

model training Imbue infrastructure large language models

Imbue - training a 70B model from scratch! (w/ Bowei - head of infra)

ARTICLEHugging Face Blog·3/3/2026

PRX Part 3 — Training a Text-to-Image Model in 24h!

Este é o terceiro episódio da série PRX, focado no desafio de treinar um modelo de inteligência artificial capaz de gerar imagens a partir de descrições textuais. O artigo propõe explorar como essa tarefa complexa pode ser realizada em um período otimizado de 24 horas.

Text-to-image deep learning model training machine learning

DOCHugging Face Blog·16/4/2026

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Este contenido aborda el entrenamiento y ajuste fino de modelos de embedding y reranker multimodales, utilizando la biblioteca Sentence Transformers para optimizar su rendimiento.

Finetuning embedding models multimodal AI model training