Fine-tuning

59 items

RESEARCHarXiv CS.CL·il y a 20h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Cette étude examine les hallucinations dans les grands modèles de langage adaptés à un domaine, en se concentrant sur le modèle Llama-2 affiné avec l'ensemble de données Lamini. Il a été constaté que sa capacité à raisonner et à se souvenir de nouvelles informations spécifiques au domaine reste limitée, entraînant des hallucinations et une tendance à la surgénération.

Llama-2 hallucinations Domain Adaptation large language models

RESEARCHarXiv CS.CL·il y a 20h

Post-training is (Massive) Supervised Learning

Cet article soutient que le paradigme dominant de post-formation pour les LLM, impliquant SFT et RL, revient effectivement à l'approche "pré-entraîner puis affiner", adaptant explicitement les modèles à des benchmarks spécifiques. Des preuves empiriques montrent que les modèles post-entraînés à partir de zéro peuvent produire des performances non négligeables sur des ensembles de données de raisonnement.

LLMs machine learning Benchmarking Training

RESEARCHarXiv CS.CL·il y a 20h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Cette étude propose une méthode non supervisée pour identifier l'argot et les entités uniques des communautés en ligne en analysant l'ampleur du glissement sémantique. Le glissement sémantique est défini comme l'évolution de la représentation codée d'un mot après l'ajustement fin d'un Grand Modèle de Langage (LLM) pré-entraîné sur un corpus de texte spécifique à une communauté.

online-communities semantic-shift natural language processing large language models

NEWS↑ trendingReddit r/MachineLearning·21/04/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Chaperone-Thinking-LQ-1.0, un modèle DeepSeek-R1-32B de 4 bits quantifié GPTQ et affiné avec QLoRA, a été mis en open source. Il atteint 84 % de précision sur MedQA, proche de GPT-4o, pour une taille d'environ 20 Go et est 1,6 fois plus rapide que le modèle de base.

Open Source Benchmarking quantization Fine-tuning

ARTICLE↑ trendingReddit r/MachineLearning·18/04/2026

Trials and tribulations fine-tuning & deploying Gemma-4 [P]

Une équipe ML a documenté les défis techniques rencontrés lors du fine-tuning et du déploiement de Gemma-4. Les problèmes majeurs comprenaient l'incompatibilité de PEFT avec les couches personnalisées de Gemma 4, SFTTrainer brisant silencieusement l'attention de partage KV, et DeepSpeed ZeRO-3 enregistrant des adaptateurs LoRA à moitié vides.

MLOps Gemma 4 Fine-tuning LoRA

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

[Model Release] I trained a 9B model to be agentic Data Analyst (Qwen3.5-9B + LoRA). Base model failed 100%, this LoRA completes 89% of workflows without human intervention.

Um desenvolvedor treinou um modelo Qwen3.5-9B com LoRA para atuar como analista de dados agente, focando em autonomia através de pesos. O modelo alcançou 89% de conclusão de fluxos de trabalho de ponta a ponta sem intervenção humana, superando a falha total do modelo base.

Data Analysis Agentic AI Fine-tuning LoRA

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

L'auteur passe du réglage fin de transformateurs denses au Nemotron 3 Nano de NVIDIA (une architecture hybride Mamba-Attention-MoE) pour le raisonnement multi-tâches. Il cherche des conseils sur la manière dont l'architecture hybride impacte la recette standard de réglage fin LoRA, son expérience antérieure étant limitée aux modèles denses.

LLMs multi-task reasoning AI Architectures Fine-tuning

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

First time fine-tuning, need a sanity check — 3B or 7B for multi-task reasoning? [D]

Un utilisateur autodidacte, débutant en fine-tuning, demande conseil pour choisir entre des modèles LLM 3B et 7B pour un projet de raisonnement multi-tâches. Le projet vise à comprendre l'intention sous-jacente des questions, à maintenir plusieurs perspectives et à gérer des entrées complexes.

LLMs model selection multi-task reasoning NLP

ARTICLE↑ trendingReddit r/LocalLLaMA·26/04/2026

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

Ce contenu examine le modèle Qwen3.6 35B A3B Heretic, le présentant comme le meilleur modèle 35B non censuré que l'utilisateur ait trouvé. Il souligne sa capacité à tenir dans 24 Go de VRAM, à gérer les appels d'outils multi-tours et son potentiel à surpasser le modèle original Qwen 3.6.

Model Evaluation Fine-tuning LLM

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

RESEARCHarXiv CS.AI·il y a 5j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

LLMs reinforcement learning code generation RTL Synthesis

RESEARCHarXiv CS.LG·20/04/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia propose une méthode de sélection de couches guidée par le gradient pour l'ajustement fin de LoRA, ciblant les couches les plus pertinentes pour la tâche avec une allocation de rang asymétrique. Cette approche permet une accélération de l'entraînement de 15 à 28 % sur diverses architectures de modèles de langage, tout en conservant les performances.

Parameter-efficient fine-tuning efficiency large language models Fine-tuning

RESEARCHarXiv CS.LG·21/04/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Cette recherche présente un modèle de récompense génératif (GRM) basé sur des rubriques pour améliorer le réglage fin renforcé (RFT) des agents LLM dans les tâches d'ingénierie logicielle (SWE). En fournissant des signaux d'apprentissage plus riches au-delà des récompenses terminales binaires, cette approche façonne les comportements intermédiaires et améliore significativement la qualité du processus de résolution.

reinforcement learning Fine-tuning Software engineering AI agents

RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

Diffusion Models LLMs reinforcement learning machine learning

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Le titre suggère que le réglage fin de modèles d'IA locaux utilisant la marque

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner présente une méthode de réglage fin harmonisant la longueur pour l'élagage du raisonnement de type O1. Cette technique vise à optimiser les modèles pour leurs capacités de raisonnement.

Pruning Reasoning Fine-tuning model optimization

DOCAWS Machine Learning Blog·il y a 6j

Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI

Ce billet explique comment utiliser Supervised Fine-Tuning (SFT) et Direct Preference Optimization (DPO) pour améliorer la précision de l'appel d'outils d'un petit modèle de langage. Il détaille l'utilisation des tâches d'entraînement Amazon SageMaker AI pour se concentrer sur le code et évaluer la qualité du modèle.

SageMaker learning tool-calling SLM

DOCDEV.to AI·il y a 16j

96. LoRA: Fine-Tune a Billion-Parameter Model on a Laptop

L'article explique comment la technique LoRA (Low-Rank Adaptation) permet l'ajustement fin de modèles de langage à milliards de paramètres sur du matériel grand public, comme les ordinateurs portables. Au lieu de mettre à jour tous les paramètres, LoRA ajoute de minuscules modules entraînables, réduisant considérablement les exigences en mémoire GPU.

GPU memory Fine-tuning LoRA HuggingFace

RESEARCHarXiv CS.LG·15/04/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) est une nouvelle méthode pour améliorer l'adaptation de rang faible (LoRA) dans le réglage fin des grands modèles de langage. Elle introduit une expansion polynomiale structurée dans l'espace des facteurs de rang faible pour modéliser des interactions non linéaires d'ordre supérieur, surmontant les limites linéaires de LoRA sans augmenter le rang ou le coût d'inférence.

LLMs Low-Rank Adaptation machine learning Polynomial Expansion

DOCHugging Face Blog·il y a 5j

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

Ce contenu propose un guide sur la manière d'affiner le modèle de reconnaissance vocale automatique (ASR) Nemotron 3.5. Il vise à aider les utilisateurs à adapter le modèle à des langues, des domaines ou des accents spécifiques, optimisant ainsi ses performances.

learning Nemotron 3.5 AI ASR