← heapsort-ai

Fine-tuning

59 items

ARTICLEDEV.to AI·22/4/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) se presenta como el principal método PEFT, permitiendo la adaptación eficiente de LLM masivos como Llama 3 sin necesidad de muchos recursos de hardware. El artículo promete explorar la intuición matemática de LoRA, el concepto de "dimensión intrínseca" y su impacto revolucionario para los ingenieros de IA.

27
RESEARCHarXiv CS.CL·20/4/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Los grandes modelos de lenguaje a menudo alucinan hechos, un problema exacerbado por el ajuste fino supervisado (SFT) que degrada el conocimiento preentrenado. Esta investigación propone un método SFT basado en autodestilación, inspirado en el aprendizaje continuo, para mitigar las alucinaciones regulando la deriva de la distribución de salida, mientras adquiere efectivamente nueva información fáctica.

27
RESEARCHarXiv CS.AI·17/4/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

27
RESEARCHarXiv CS.LG·9/4/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·hace 20d

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propone un nuevo método para el ajuste fino de modelos Mixture-of-Experts (MoE), aplicando módulos Low-Rank Adaptation (LoRA) solo a los expertos más frecuentemente activados en cada capa. Esta técnica reduce significativamente los parámetros entrenables y mejora el rendimiento, atribuyendo su éxito a la regularización estructurada que mantiene la especialización preentrenada de los expertos.

27
ARTICLEDEV.to AI·hace 28d

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Este artículo detalla el proceso de ajuste fino de OpenCLIP ViT-B/32 para estilos arquitectónicos, logrando un aumento de 26 puntos porcentuales en la precisión. El autor se centra en las decisiones críticas tomadas antes y después del ciclo de entrenamiento que fueron responsables de este resultado significativo, y no en la optimización del propio ciclo de entrenamiento.

27
DOCAWS Machine Learning Blog·hace 7d

The art and science of hyperparameter optimization on Amazon Nova Forge

Esta publicación detalla la optimización de hiperparámetros en Amazon Nova Forge, explicando cómo equilibrar la mejora del rendimiento específico del dominio sin degradar las capacidades generales del modelo. Cubre estrategias de personalización, configuración de parámetros de entrenamiento y cómo evitar errores comunes que conducen a ejecuciones de entrenamiento inútiles.

27
RESEARCHarXiv CS.LG·15/4/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Este artículo describe un intento de destilar disposiciones conductuales en pequeños modelos de lenguaje (0.6B-2.3B parámetros) a través de una tubería de destilación. Las ganancias iniciales reportadas fueron posteriormente falsificadas debido a artefactos de evaluación, lo que resultó en un resultado negativo para la hipótesis central y dio lugar a tres arcos de investigación posteriores.

27
RESEARCHarXiv CS.LG·28/4/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Este trabajo desafía la creencia de que PEFT equivale a eficiencia de memoria para LLMs en dispositivos, mostrando que los métodos actuales pueden causar errores por falta de memoria. Introduce LARS, un nuevo marco que desvincula el consumo de memoria de la longitud de la secuencia al restringir el subespacio de activación, reduciendo la huella de memoria en un 33,54% en promedio.

27
RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

27
RESEARCHarXiv CS.CL·9/4/2026

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

27
RESEARCHarXiv CS.CL·17/4/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Esta investigación propone TESSY, un marco de Síntesis de Datos por Cooperación Profesor-Estudiante, para abordar las caídas de rendimiento al ajustar modelos de razonamiento con datos generados por un modelo más fuerte. TESSY permite la generación de secuencias sintéticas que heredan capacidades avanzadas de razonamiento del profesor, manteniendo la consistencia estilística con la distribución del modelo estudiante.

27