← heapsort-ai

Fine-tuning

59 items

RESEARCHarXiv CS.CL·hace 20h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Este estudio investiga las alucinaciones en Grandes Modelos de Lenguaje adaptados a dominios, centrándose en Llama-2 ajustado con el conjunto de datos Lamini. Se encontró que su capacidad para razonar y recordar nueva información específica del dominio es limitada, lo que lleva a instancias de alucinación y una tendencia a la sobregeneración.

55
RESEARCHarXiv CS.CL·hace 20h

Post-training is (Massive) Supervised Learning

Este artículo sostiene que el paradigma predominante de post-entrenamiento para LLMs, que incluye SFT y RL, revierte efectivamente al enfoque de "pre-entrenar y luego ajustar", adaptando los modelos explícitamente a benchmarks específicos. La evidencia empírica demuestra que los modelos post-entrenados desde cero pueden ofrecer un rendimiento significativo en conjuntos de datos de razonamiento.

55
RESEARCHarXiv CS.CL·hace 20h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Este estudio propone un método no supervisado para resolver argot y entidades únicas de comunidades en línea mediante el análisis de la magnitud del cambio semántico. El cambio semántico se define como la evolución de la representación codificada de una palabra tras el ajuste fino de un Gran Modelo de Lenguaje (LLM) preentrenado en un corpus de texto específico de la comunidad.

54
NEWS↑ trendingReddit r/MachineLearning·21/4/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Se ha lanzado en código abierto Chaperone-Thinking-LQ-1.0, un modelo DeepSeek-R1-32B de 4 bits cuantizado con GPTQ y ajustado con QLoRA. Este modelo alcanza un 84% de precisión en MedQA, cerca de GPT-4o, con un tamaño de solo ~20GB y es 1.6 veces más rápido que el modelo base.

48
ARTICLE↑ trendingReddit r/MachineLearning·18/4/2026

Trials and tribulations fine-tuning & deploying Gemma-4 [P]

Un equipo de ML documentó los desafíos técnicos encontrados al afinar y desplegar Gemma-4. Los problemas clave incluyeron la incompatibilidad de PEFT con las capas personalizadas de Gemma 4, SFTTrainer rompiendo silenciosamente la atención de intercambio KV, y DeepSpeed ZeRO-3 guardando adaptadores LoRA medio vacíos.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

[Model Release] I trained a 9B model to be agentic Data Analyst (Qwen3.5-9B + LoRA). Base model failed 100%, this LoRA completes 89% of workflows without human intervention.

Um desenvolvedor treinou um modelo Qwen3.5-9B com LoRA para atuar como analista de dados agente, focando em autonomia através de pesos. O modelo alcançou 89% de conclusão de fluxos de trabalho de ponta a ponta sem intervenção humana, superando a falha total do modelo base.

42
ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.

42
RESEARCHarXiv CS.AI·hace 5d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

33
RESEARCHarXiv CS.LG·20/4/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia presenta un método de selección de capas guiado por gradiente para el ajuste fino de LoRA, que identifica las capas más relevantes para la tarea y aplica adaptadores de forma asimétrica. Este enfoque logra una aceleración de entrenamiento del 15-28% en diversos modelos de lenguaje grandes, manteniendo el comportamiento posterior.

32
RESEARCHarXiv CS.LG·21/4/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Esta investigación introduce un Modelo de Recompensa Generativo (GRM) basado en rúbricas para mejorar el Ajuste Fino Reforzado (RFT) en Agentes LLM para tareas de Ingeniería de Software (SWE). Al proporcionar señales de aprendizaje más ricas que las recompensas terminales binarias, este enfoque moldea los comportamientos intermedios y mejora significativamente la calidad del proceso de resolución.

31
RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

30
RESEARCHarXiv CS.CL·20/4/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta investigación introduce un marco de ajuste fino (fine-tuning) eficiente en datos para enseñar a los modelos de razonamiento de lenguaje a alternar idiomas (code-switch) de manera efectiva en tareas de razonamiento. Busca identificar comportamientos beneficiosos de alternancia de idiomas, analizando sistemáticamente rastros de razonamiento diversos.

29
DOCAWS Machine Learning Blog·hace 6d

Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI

Esta publicación explica cómo usar Supervised Fine-Tuning (SFT) y Direct Preference Optimization (DPO) para mejorar la precisión de la llamada a herramientas de un modelo de lenguaje pequeño. Demuestra cómo utilizar los trabajos de entrenamiento de Amazon SageMaker AI para centrarse en el código de entrenamiento y evaluar la calidad del modelo.

28
RESEARCHarXiv CS.LG·15/4/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) es un método novedoso para mejorar la adaptación de bajo rango (LoRA) en el ajuste fino de grandes modelos de lenguaje. Introduce una expansión polinomial estructurada en el espacio de factores de bajo rango para modelar interacciones no lineales de orden superior más ricas, superando las limitaciones lineales de LoRA sin aumentar el rango ni el coste de inferencia.

28