← heapsort-ai

Fine-tuning

59 items

RESEARCHarXiv CS.LG·il y a 22j

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Cet article propose TeamTR, un cadre de région de confiance pour l'ajustement fin des systèmes LLM multi-agents, s'attaquant aux défaillances structurelles de l'ajustement séquentiel. Il prouve que l'évaluation de l'occupation obsolète entraîne une pénalité quadratique avec le nombre d'agents et améliore les performances de 7,1% en moyenne.

28
ARTICLEDEV.to AI·22/04/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) est présenté comme la principale méthode PEFT, permettant l'adaptation efficace de LLM massifs comme Llama 3 sans nécessiter de vastes ressources matérielles. L'article promet d'explorer l'intuition mathématique de LoRA, le concept de "dimension intrinsèque" et son impact révolutionnaire pour les ingénieurs en IA.

27
RESEARCHarXiv CS.CL·20/04/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Les grands modèles de langage sont souvent sujets aux hallucinations factuelles, un problème aggravé par le réglage fin supervisé (SFT) qui dégrade les connaissances pré-entraînées. Cette recherche propose une méthode SFT basée sur l'auto-distillation, inspirée de l'apprentissage continu, pour atténuer les hallucinations en régularisant la dérive de la distribution de sortie, tout en acquérant efficacement de nouvelles informations factuelles.

27
RESEARCHarXiv CS.AI·17/04/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.

27
RESEARCHarXiv CS.LG·09/04/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·21/04/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Cette recherche révèle que le réglage fin LoRA entraîne un 'désapprentissage' sur des exemples contestés, où un désaccord élevé des annotateurs est corrélé à une perte croissante pendant l'entraînement. Ce phénomène se distingue du réglage fin complet et est observé de manière constante sur divers modèles et ensembles de données.

27
RESEARCHarXiv CS.LG·il y a 20j

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propose une nouvelle méthode pour l'ajustement fin des modèles Mixture-of-Experts (MoE), en appliquant des modules Low-Rank Adaptation (LoRA) uniquement aux experts les plus fréquemment activés à chaque couche. Cette technique réduit considérablement les paramètres entraînables et améliore les performances, attribuant son succès à une régularisation structurée qui préserve la spécialisation pré-entraînée des experts.

27
ARTICLEDEV.to AI·il y a 28j

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Cet article détaille le processus de réglage fin d'OpenCLIP ViT-B/32 pour les styles architecturaux, obtenant une augmentation de 26 points de pourcentage de précision. L'auteur se concentre sur les décisions cruciales prises avant et après la boucle d'entraînement qui ont été responsables de ce résultat significatif, plutôt que sur l'optimisation de la boucle d'entraînement elle-même.

27
DOCAWS Machine Learning Blog·il y a 7j

The art and science of hyperparameter optimization on Amazon Nova Forge

Cet article explore l'optimisation des hyperparamètres sur Amazon Nova Forge, expliquant comment équilibrer l'amélioration des performances spécifiques à un domaine sans dégrader les capacités générales d'un modèle. Il aborde les stratégies de personnalisation, la configuration des paramètres d'entraînement et les moyens d'éviter les erreurs coûteuses.

27
RESEARCHDEV.to AI·07/05/2026

Post‑training tricks cut LLM cost without losing ability

Des travaux récents montrent que des astuces post-entraînement peuvent réduire considérablement le coût et la mémoire des LLM sans perte de capacité. Cela inclut l'alignement des données synthétiques avec le style d'un modèle étudiant et l'utilisation d'optimisations du cache clé-valeur (KV), réalisant des économies substantielles sans les baisses de performances typiques.

27
RESEARCHarXiv CS.LG·15/04/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Cet article détaille une tentative de distiller des dispositions comportementales dans de petits modèles de langage (0.6B-2.3B paramètres) via un pipeline de distillation. Les gains initiaux rapportés ont été falsifiés en raison d'artefacts d'évaluation, aboutissant à un résultat négatif pour l'hypothèse principale et menant à trois arcs d'investigation ultérieurs.

27
RESEARCHarXiv CS.LG·28/04/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Cette recherche remet en question l'hypothèse selon laquelle la PEFT équivaut à l'efficacité de la mémoire pour les LLM sur appareil, montrant que les méthodes existantes peuvent toujours provoquer des erreurs de mémoire insuffisante. Elle introduit LARS, un nouveau cadre qui découple la consommation de mémoire de la longueur de séquence en contraignant le sous-espace d'activation, réduisant l'empreinte mémoire de 33,54% en moyenne.

27
RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

27
RESEARCHarXiv CS.CL·09/04/2026

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

27
RESEARCHarXiv CS.CL·17/04/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Cette recherche propose TESSY, un cadre de Synthèse de Données par Coopération Enseignant-Élève, pour remédier aux baisses de performance lors du réglage fin de modèles de raisonnement avec des données générées par un modèle plus fort. TESSY permet la génération de séquences synthétiques qui héritent des capacités de raisonnement avancées de l'enseignant tout en maintenant une cohérence stylistique avec la distribution du modèle élève.

27