Fine-tuning

59 items

DOCHugging Face Blog·hace 5d

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Este contenido ofrece una guía sobre cómo realizar el ajuste fino del modelo de Reconocimiento Automático de Voz (ASR) Nemotron 3.5. Su objetivo es ayudar a los usuarios a adaptar el modelo para idiomas, dominios o acentos específicos, optimizando su rendimiento.

learning Nemotron 3.5 AI ASR

RESEARCHarXiv CS.LG·hace 22d

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Este artículo propone TeamTR, un marco de región de confianza para el ajuste fino de sistemas LLM multiagente, abordando fallas estructurales en el ajuste secuencial. Demuestra que la evaluación de ocupación obsoleta incurre en una penalización cuadrática con el número de agentes y mejora el rendimiento en un 7,1% en promedio.

Multi-agent LLMs LLM coordination Trust-region method Fine-tuning

ARTICLEDEV.to AI·22/4/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) se presenta como el principal método PEFT, permitiendo la adaptación eficiente de LLM masivos como Llama 3 sin necesidad de muchos recursos de hardware. El artículo promete explorar la intuición matemática de LoRA, el concepto de "dimensión intrínseca" y su impacto revolucionario para los ingenieros de IA.

LLMs deep learning Fine-tuning PEFT

RESEARCHarXiv CS.CL·20/4/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Los grandes modelos de lenguaje a menudo alucinan hechos, un problema exacerbado por el ajuste fino supervisado (SFT) que degrada el conocimiento preentrenado. Esta investigación propone un método SFT basado en autodestilación, inspirado en el aprendizaje continuo, para mitigar las alucinaciones regulando la deriva de la distribución de salida, mientras adquiere efectivamente nueva información fáctica.

hallucinations large language models Fine-tuning Continual Learning

RESEARCHarXiv CS.AI·17/4/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.LG·9/4/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication Fine-tuning

RESEARCHarXiv CS.LG·21/4/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Esta investigación descubre que el ajuste fino LoRA provoca 'desaprendizaje' en ejemplos controvertidos, donde una alta discrepancia de anotadores se correlaciona con un aumento de la pérdida durante el entrenamiento. Este patrón es distinto del ajuste fino completo y se observa consistentemente en varios modelos y conjuntos de datos.

model training machine learning NLP Fine-tuning

RESEARCHarXiv CS.LG·hace 20d

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propone un nuevo método para el ajuste fino de modelos Mixture-of-Experts (MoE), aplicando módulos Low-Rank Adaptation (LoRA) solo a los expertos más frecuentemente activados en cada capa. Esta técnica reduce significativamente los parámetros entrenables y mejora el rendimiento, atribuyendo su éxito a la regularización estructurada que mantiene la especialización preentrenada de los expertos.

LLMs MoE AI Fine-tuning

ARTICLEDEV.to AI·26/4/2026

RAG vs Fine-tuning vs AI Agents: Which LLM Architecture to Choose in 2026?

Este artículo analiza la elección entre RAG, fine-tuning y agentes de IA para proyectos LLM, sugiriendo que a menudo se necesita una combinación. Ofrece una guía práctica sobre qué arquitectura priorizar según las necesidades del proyecto, como la fuente de datos, las acciones y el presupuesto.

RAG LLM architectures Fine-tuning AI development

RESEARCHarXiv CS.CL·21/4/2026

QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning

El artículo presenta la estrategia de ajuste fino QLoRA multi-etapa de QU-NLP para el razonamiento de herencia islámica árabe, utilizando Qwen3-4B. El modelo logró una puntuación MIR-E del 90%, demostrando un rendimiento competitivo con recursos computacionales mínimos.

LLMs Legal AI Arabic AI NLP

DOCHugging Face Blog·8/5/2026

MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required

Este contenido detalla el ajuste fino de un modelo de IA clínica, MedQA, en la plataforma AMD ROCm. Destaca la capacidad de realizar esta tarea sin requerir CUDA, ofreciendo una alternativa significativa para el desarrollo de IA.

GPU hardware-compatibility Fine-tuning medical AI

ARTICLEDEV.to AI·18/4/2026

I Thought Fine-Tuning Needed an ML Team. I Was Wrong.

El artículo destaca cómo los comentarios negativos de los usuarios son datos de entrenamiento valiosos y reales para sistemas de IA, frecuentemente ignorados. Desafía la idea de que el ajuste fino de IA es siempre costoso, proponiendo un bucle de retroalimentación simplificado para equipos de producto.

User feedback Fine-tuning AI development data collection

ARTICLEDEV.to AI·hace 28d

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Este artículo detalla el proceso de ajuste fino de OpenCLIP ViT-B/32 para estilos arquitectónicos, logrando un aumento de 26 puntos porcentuales en la precisión. El autor se centra en las decisiones críticas tomadas antes y después del ciclo de entrenamiento que fueron responsables de este resultado significativo, y no en la optimización del propio ciclo de entrenamiento.

CLIP Vision-Language Models machine learning computer vision

DOCAWS Machine Learning Blog·hace 7d

The art and science of hyperparameter optimization on Amazon Nova Forge

Esta publicación detalla la optimización de hiperparámetros en Amazon Nova Forge, explicando cómo equilibrar la mejora del rendimiento específico del dominio sin degradar las capacidades generales del modelo. Cubre estrategias de personalización, configuración de parámetros de entrenamiento y cómo evitar errores comunes que conducen a ejecuciones de entrenamiento inútiles.

Amazon Nova Forge hyperparameter optimization learning model training

RESEARCHDEV.to AI·7/5/2026

Post‑training tricks cut LLM cost without losing ability

Trabajos recientes demuestran que trucos post-entrenamiento pueden reducir significativamente el costo y la memoria de los LLM sin perder capacidad. Esto incluye alinear datos sintéticos con el estilo de un modelo estudiante y optimizaciones de caché de valor clave (KV), logrando ahorros sustanciales sin las típicas caídas de rendimiento.

Optimization cost reduction efficiency Fine-tuning

RESEARCHarXiv CS.LG·15/4/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Este artículo describe un intento de destilar disposiciones conductuales en pequeños modelos de lenguaje (0.6B-2.3B parámetros) a través de una tubería de destilación. Las ganancias iniciales reportadas fueron posteriormente falsificadas debido a artefactos de evaluación, lo que resultó en un resultado negativo para la hipótesis central y dio lugar a tres arcos de investigación posteriores.

Negative Results Model Distillation Behavioral Dispositions large language models

RESEARCHarXiv CS.LG·28/4/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Este trabajo desafía la creencia de que PEFT equivale a eficiencia de memoria para LLMs en dispositivos, mostrando que los métodos actuales pueden causar errores por falta de memoria. Introduce LARS, un nuevo marco que desvincula el consumo de memoria de la longitud de la secuencia al restringir el subespacio de activación, reduciendo la huella de memoria en un 33,54% en promedio.

Memory Optimization on-device AI Fine-tuning PEFT

RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

language models model robustness Fine-tuning Adversarial Training

RESEARCHarXiv CS.CL·9/4/2026

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

RAG knowledge base Fine-tuning LLM

RESEARCHarXiv CS.CL·17/4/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Esta investigación propone TESSY, un marco de Síntesis de Datos por Cooperación Profesor-Estudiante, para abordar las caídas de rendimiento al ajustar modelos de razonamiento con datos generados por un modelo más fuerte. TESSY permite la generación de secuencias sintéticas que heredan capacidades avanzadas de razonamiento del profesor, manteniendo la consistencia estilística con la distribución del modelo estudiante.

data synthesis machine learning code generation large language models