← heapsort-ai

model training

16 items

RESEARCH↑ trendingReddit r/MachineLearning·24/4/2026

New project about llm hallucination [P]

Este contenido introduce un nuevo proyecto secundario y su repositorio de GitHub, centrado en mitigar la alucinación de LLM mediante un novedoso método de muestreo contrastivo y entrenamiento selectivo. La idea central trata la alucinación como un problema de preferencia, utilizando muestras negativas auto-generadas y un aprendizaje basado en divergencia y con compuertas para promover respuestas correctas y suprimir las incorrectas.

New project about llm hallucination [P]
45
RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un desarrollador entrenó modelos de deep learning basados en transformadores para jugar ajedrez como humanos en varios rangos de rating, incluyendo la predicción del tiempo de pensamiento. Los modelos fueron entrenados con datos de Lichess y lograron una precisión comparable a MAIA-3, a pesar de su pequeño tamaño.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·hace 25d

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview es un modelo de fundación multimodal científico eficiente de 35B que logra un rendimiento comparable al de modelos de trillones de parámetros al explorar el escalado de tareas y el entrenamiento de cadena completa. Se destaca en cientos de tareas científicas profesionales, manteniendo un fuerte razonamiento general, comprensión multimodal y capacidades de agente.

internlm/Intern-S2-Preview · Hugging Face
42
RESEARCHarXiv CS.LG·hace 20d

Simply Stabilizing the Loop via Fully Looped Transformer

Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.

29
RESEARCHDEV.to AI·6/5/2026

Micro-Batch Training with Batch-Channel Normalization and Weight Standardization

Este contenido explora técnicas avanzadas para optimizar el entrenamiento de redes neuronales, centrándose específicamente en el procesamiento de micro-lotes. Detalla la aplicación de normalización de canal de lote y estandarización de peso para mejorar el rendimiento y la estabilidad del modelo en escenarios con tamaños de lote pequeños.

27
RESEARCHarXiv CS.CL·4/5/2026

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

RSAT es un nuevo método que entrena pequeños modelos de lenguaje (SLM) para producir razonamiento fiel y paso a paso para preguntas de tablas, fundamentado con citas a nivel de celda. Mejora significativamente la fidelidad (3.7x) y logra una validez de citación casi perfecta al integrar la atribución en el proceso de razonamiento.

27
DOCAWS Machine Learning Blog·hace 7d

The art and science of hyperparameter optimization on Amazon Nova Forge

Esta publicación detalla la optimización de hiperparámetros en Amazon Nova Forge, explicando cómo equilibrar la mejora del rendimiento específico del dominio sin degradar las capacidades generales del modelo. Cubre estrategias de personalización, configuración de parámetros de entrenamiento y cómo evitar errores comunes que conducen a ejecuciones de entrenamiento inútiles.

27