Fine-tuning

59 items

DOCHugging Face Blog·il y a 5j

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Ce contenu propose un guide sur la manière d'affiner le modèle de reconnaissance vocale automatique (ASR) Nemotron 3.5. Il vise à aider les utilisateurs à adapter le modèle à des langues, des domaines ou des accents spécifiques, optimisant ainsi ses performances.

learning Nemotron 3.5 AI ASR

RESEARCHarXiv CS.LG·il y a 22j

TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

Cet article propose TeamTR, un cadre de région de confiance pour l'ajustement fin des systèmes LLM multi-agents, s'attaquant aux défaillances structurelles de l'ajustement séquentiel. Il prouve que l'évaluation de l'occupation obsolète entraîne une pénalité quadratique avec le nombre d'agents et améliore les performances de 7,1% en moyenne.

Multi-agent LLMs LLM coordination Trust-region method Fine-tuning

ARTICLEDEV.to AI·22/04/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) est présenté comme la principale méthode PEFT, permettant l'adaptation efficace de LLM massifs comme Llama 3 sans nécessiter de vastes ressources matérielles. L'article promet d'explorer l'intuition mathématique de LoRA, le concept de "dimension intrinsèque" et son impact révolutionnaire pour les ingénieurs en IA.

LLMs deep learning Fine-tuning PEFT

RESEARCHarXiv CS.CL·20/04/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Les grands modèles de langage sont souvent sujets aux hallucinations factuelles, un problème aggravé par le réglage fin supervisé (SFT) qui dégrade les connaissances pré-entraînées. Cette recherche propose une méthode SFT basée sur l'auto-distillation, inspirée de l'apprentissage continu, pour atténuer les hallucinations en régularisant la dérive de la distribution de sortie, tout en acquérant efficacement de nouvelles informations factuelles.

hallucinations large language models Fine-tuning Continual Learning

RESEARCHarXiv CS.AI·17/04/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.LG·09/04/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication Fine-tuning

RESEARCHarXiv CS.LG·21/04/2026

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Cette recherche révèle que le réglage fin LoRA entraîne un 'désapprentissage' sur des exemples contestés, où un désaccord élevé des annotateurs est corrélé à une perte croissante pendant l'entraînement. Ce phénomène se distingue du réglage fin complet et est observé de manière constante sur divers modèles et ensembles de données.

model training machine learning NLP Fine-tuning

RESEARCHarXiv CS.LG·il y a 20j

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propose une nouvelle méthode pour l'ajustement fin des modèles Mixture-of-Experts (MoE), en appliquant des modules Low-Rank Adaptation (LoRA) uniquement aux experts les plus fréquemment activés à chaque couche. Cette technique réduit considérablement les paramètres entraînables et améliore les performances, attribuant son succès à une régularisation structurée qui préserve la spécialisation pré-entraînée des experts.

LLMs MoE AI Fine-tuning

ARTICLEDEV.to AI·26/04/2026

RAG vs Fine-tuning vs AI Agents: Which LLM Architecture to Choose in 2026?

Cet article analyse le choix entre RAG, fine-tuning et agents IA pour les projets LLM, suggérant qu'une combinaison est souvent nécessaire. Il propose un guide pratique sur l'architecture à privilégier en fonction des besoins du projet tels que la source de données, les actions et le budget.

RAG LLM architectures Fine-tuning AI development

RESEARCHarXiv CS.CL·21/04/2026

QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning

L'article décrit la stratégie de fine-tuning QLoRA multi-étapes de QU-NLP pour le raisonnement d'héritage islamique en arabe, en utilisant Qwen3-4B. Le modèle a atteint un score MIR-E de 90%, montrant des performances compétitives avec des ressources informatiques minimales.

LLMs Legal AI Arabic AI NLP

DOCHugging Face Blog·08/05/2026

MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required

Ce contenu détaille le réglage fin d'un modèle d'IA clinique, MedQA, sur la plateforme AMD ROCm. Il souligne la possibilité d'effectuer cette tâche sans nécessiter CUDA, offrant une alternative significative pour le développement de l'IA.

GPU hardware-compatibility Fine-tuning medical AI

ARTICLEDEV.to AI·18/04/2026

I Thought Fine-Tuning Needed an ML Team. I Was Wrong.

Cet article met en lumière comment les retours négatifs des utilisateurs constituent des données d'entraînement réelles précieuses pour les systèmes d'IA, souvent ignorées. Il remet en question l'idée reçue selon laquelle le fine-tuning est toujours coûteux, proposant une boucle de rétroaction simplifiée adaptée aux équipes produit.

User feedback Fine-tuning AI development data collection

ARTICLEDEV.to AI·il y a 28j

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Cet article détaille le processus de réglage fin d'OpenCLIP ViT-B/32 pour les styles architecturaux, obtenant une augmentation de 26 points de pourcentage de précision. L'auteur se concentre sur les décisions cruciales prises avant et après la boucle d'entraînement qui ont été responsables de ce résultat significatif, plutôt que sur l'optimisation de la boucle d'entraînement elle-même.

CLIP Vision-Language Models machine learning computer vision

DOCAWS Machine Learning Blog·il y a 7j

The art and science of hyperparameter optimization on Amazon Nova Forge

Cet article explore l'optimisation des hyperparamètres sur Amazon Nova Forge, expliquant comment équilibrer l'amélioration des performances spécifiques à un domaine sans dégrader les capacités générales d'un modèle. Il aborde les stratégies de personnalisation, la configuration des paramètres d'entraînement et les moyens d'éviter les erreurs coûteuses.

Amazon Nova Forge hyperparameter optimization learning model training

RESEARCHDEV.to AI·07/05/2026

Post‑training tricks cut LLM cost without losing ability

Des travaux récents montrent que des astuces post-entraînement peuvent réduire considérablement le coût et la mémoire des LLM sans perte de capacité. Cela inclut l'alignement des données synthétiques avec le style d'un modèle étudiant et l'utilisation d'optimisations du cache clé-valeur (KV), réalisant des économies substantielles sans les baisses de performances typiques.

Optimization cost reduction efficiency Fine-tuning

RESEARCHarXiv CS.LG·15/04/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Cet article détaille une tentative de distiller des dispositions comportementales dans de petits modèles de langage (0.6B-2.3B paramètres) via un pipeline de distillation. Les gains initiaux rapportés ont été falsifiés en raison d'artefacts d'évaluation, aboutissant à un résultat négatif pour l'hypothèse principale et menant à trois arcs d'investigation ultérieurs.

Negative Results Model Distillation Behavioral Dispositions large language models

RESEARCHarXiv CS.LG·28/04/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Cette recherche remet en question l'hypothèse selon laquelle la PEFT équivaut à l'efficacité de la mémoire pour les LLM sur appareil, montrant que les méthodes existantes peuvent toujours provoquer des erreurs de mémoire insuffisante. Elle introduit LARS, un nouveau cadre qui découple la consommation de mémoire de la longueur de séquence en contraignant le sous-espace d'activation, réduisant l'empreinte mémoire de 33,54% en moyenne.

Memory Optimization on-device AI Fine-tuning PEFT

RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

language models model robustness Fine-tuning Adversarial Training

RESEARCHarXiv CS.CL·09/04/2026

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

RAG knowledge base Fine-tuning LLM

RESEARCHarXiv CS.CL·17/04/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Cette recherche propose TESSY, un cadre de Synthèse de Données par Coopération Enseignant-Élève, pour remédier aux baisses de performance lors du réglage fin de modèles de raisonnement avec des données générées par un modèle plus fort. TESSY permet la génération de séquences synthétiques qui héritent des capacités de raisonnement avancées de l'enseignant tout en maintenant une cohérence stylistique avec la distribution du modèle élève.

data synthesis machine learning code generation large language models