Fine-tuning

59 items

RESEARCHarXiv CS.CL·hace 20h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Este estudio investiga las alucinaciones en Grandes Modelos de Lenguaje adaptados a dominios, centrándose en Llama-2 ajustado con el conjunto de datos Lamini. Se encontró que su capacidad para razonar y recordar nueva información específica del dominio es limitada, lo que lleva a instancias de alucinación y una tendencia a la sobregeneración.

Llama-2 hallucinations Domain Adaptation large language models

RESEARCHarXiv CS.CL·hace 20h

Post-training is (Massive) Supervised Learning

Este artículo sostiene que el paradigma predominante de post-entrenamiento para LLMs, que incluye SFT y RL, revierte efectivamente al enfoque de "pre-entrenar y luego ajustar", adaptando los modelos explícitamente a benchmarks específicos. La evidencia empírica demuestra que los modelos post-entrenados desde cero pueden ofrecer un rendimiento significativo en conjuntos de datos de razonamiento.

LLMs machine learning Benchmarking Training

RESEARCHarXiv CS.CL·hace 20h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Este estudio propone un método no supervisado para resolver argot y entidades únicas de comunidades en línea mediante el análisis de la magnitud del cambio semántico. El cambio semántico se define como la evolución de la representación codificada de una palabra tras el ajuste fino de un Gran Modelo de Lenguaje (LLM) preentrenado en un corpus de texto específico de la comunidad.

online-communities semantic-shift natural language processing large language models

NEWS↑ trendingReddit r/MachineLearning·21/4/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Se ha lanzado en código abierto Chaperone-Thinking-LQ-1.0, un modelo DeepSeek-R1-32B de 4 bits cuantizado con GPTQ y ajustado con QLoRA. Este modelo alcanza un 84% de precisión en MedQA, cerca de GPT-4o, con un tamaño de solo ~20GB y es 1.6 veces más rápido que el modelo base.

Open Source Benchmarking quantization Fine-tuning

ARTICLE↑ trendingReddit r/MachineLearning·18/4/2026

Trials and tribulations fine-tuning & deploying Gemma-4 [P]

Un equipo de ML documentó los desafíos técnicos encontrados al afinar y desplegar Gemma-4. Los problemas clave incluyeron la incompatibilidad de PEFT con las capas personalizadas de Gemma 4, SFTTrainer rompiendo silenciosamente la atención de intercambio KV, y DeepSpeed ZeRO-3 guardando adaptadores LoRA medio vacíos.

MLOps Gemma 4 Fine-tuning LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

[Model Release] I trained a 9B model to be agentic Data Analyst (Qwen3.5-9B + LoRA). Base model failed 100%, this LoRA completes 89% of workflows without human intervention.

Um desenvolvedor treinou um modelo Qwen3.5-9B com LoRA para atuar como analista de dados agente, focando em autonomia através de pesos. O modelo alcançou 89% de conclusão de fluxos de trabalho de ponta a ponta sem intervenção humana, superando a falha total do modelo base.

Data Analysis Agentic AI Fine-tuning LoRA

ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.

LLMs multi-task reasoning AI Architectures Fine-tuning

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

First time fine-tuning, need a sanity check — 3B or 7B for multi-task reasoning? [D]

Un usuario autodidacta, principiante en el fine-tuning, pide consejo sobre la elección entre modelos LLM de 3B y 7B para un proyecto de razonamiento multitarea. El proyecto implica entender la intención subyacente en las preguntas, mantener múltiples perspectivas y manejar entradas desordenadas.

LLMs model selection multi-task reasoning NLP

ARTICLE↑ trendingReddit r/LocalLLaMA·26/4/2026

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

Este contenido revisa el modelo Qwen3.6 35B A3B Heretic, elogiándolo como el mejor modelo 35B sin censura que el usuario ha encontrado. Destaca su capacidad para encajar en 24GB de VRAM, manejar llamadas de herramientas de múltiples turnos y su potencial para superar al modelo original Qwen 3.6 en benchmarks.

Model Evaluation Fine-tuning LLM

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

RESEARCHarXiv CS.AI·hace 5d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

LLMs reinforcement learning code generation RTL Synthesis

RESEARCHarXiv CS.LG·20/4/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia presenta un método de selección de capas guiado por gradiente para el ajuste fino de LoRA, que identifica las capas más relevantes para la tarea y aplica adaptadores de forma asimétrica. Este enfoque logra una aceleración de entrenamiento del 15-28% en diversos modelos de lenguaje grandes, manteniendo el comportamiento posterior.

Parameter-efficient fine-tuning efficiency large language models Fine-tuning

RESEARCHarXiv CS.LG·21/4/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Esta investigación introduce un Modelo de Recompensa Generativo (GRM) basado en rúbricas para mejorar el Ajuste Fino Reforzado (RFT) en Agentes LLM para tareas de Ingeniería de Software (SWE). Al proporcionar señales de aprendizaje más ricas que las recompensas terminales binarias, este enfoque moldea los comportamientos intermedios y mejora significativamente la calidad del proceso de resolución.

reinforcement learning Fine-tuning Software engineering AI agents

RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

Diffusion Models LLMs reinforcement learning machine learning

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

El título sugiere que el ajuste fino de modelos de IA locales utilizando la marca

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

RESEARCHarXiv CS.CL·20/4/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta investigación introduce un marco de ajuste fino (fine-tuning) eficiente en datos para enseñar a los modelos de razonamiento de lenguaje a alternar idiomas (code-switch) de manera efectiva en tareas de razonamiento. Busca identificar comportamientos beneficiosos de alternancia de idiomas, analizando sistemáticamente rastros de razonamiento diversos.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·20/4/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner presenta un método de ajuste fino que armoniza la longitud para la poda de razonamiento tipo O1. Esta técnica busca optimizar modelos para mejorar sus capacidades de inferencia.

Pruning Reasoning Fine-tuning model optimization

DOCAWS Machine Learning Blog·hace 6d

Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI

Esta publicación explica cómo usar Supervised Fine-Tuning (SFT) y Direct Preference Optimization (DPO) para mejorar la precisión de la llamada a herramientas de un modelo de lenguaje pequeño. Demuestra cómo utilizar los trabajos de entrenamiento de Amazon SageMaker AI para centrarse en el código de entrenamiento y evaluar la calidad del modelo.

SageMaker learning tool-calling SLM

DOCDEV.to AI·hace 16d

96. LoRA: Fine-Tune a Billion-Parameter Model on a Laptop

El artículo explica cómo la técnica LoRA (Low-Rank Adaptation) permite el ajuste fino de modelos de lenguaje de miles de millones de parámetros en hardware de consumo, como laptops. En lugar de actualizar todos los parámetros, LoRA añade pequeños módulos entrenables, reduciendo drásticamente los requisitos de memoria de GPU.

GPU memory Fine-tuning LoRA HuggingFace

RESEARCHarXiv CS.LG·15/4/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) es un método novedoso para mejorar la adaptación de bajo rango (LoRA) en el ajuste fino de grandes modelos de lenguaje. Introduce una expansión polinomial estructurada en el espacio de factores de bajo rango para modelar interacciones no lineales de orden superior más ricas, superando las limitaciones lineales de LoRA sin aumentar el rango ni el coste de inferencia.

LLMs Low-Rank Adaptation machine learning Polynomial Expansion

DOCHugging Face Blog·hace 5d

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Este contenido ofrece una guía sobre cómo realizar el ajuste fino del modelo de Reconocimiento Automático de Voz (ASR) Nemotron 3.5. Su objetivo es ayudar a los usuarios a adaptar el modelo para idiomas, dominios o acentos específicos, optimizando su rendimiento.

learning Nemotron 3.5 AI ASR