← heapsort-ai

Fine-tuning

59 items

RESEARCHarXiv CS.CL·il y a 20h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Cette étude examine les hallucinations dans les grands modèles de langage adaptés à un domaine, en se concentrant sur le modèle Llama-2 affiné avec l'ensemble de données Lamini. Il a été constaté que sa capacité à raisonner et à se souvenir de nouvelles informations spécifiques au domaine reste limitée, entraînant des hallucinations et une tendance à la surgénération.

55
RESEARCHarXiv CS.CL·il y a 20h

Post-training is (Massive) Supervised Learning

Cet article soutient que le paradigme dominant de post-formation pour les LLM, impliquant SFT et RL, revient effectivement à l'approche "pré-entraîner puis affiner", adaptant explicitement les modèles à des benchmarks spécifiques. Des preuves empiriques montrent que les modèles post-entraînés à partir de zéro peuvent produire des performances non négligeables sur des ensembles de données de raisonnement.

55
RESEARCHarXiv CS.CL·il y a 20h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Cette étude propose une méthode non supervisée pour identifier l'argot et les entités uniques des communautés en ligne en analysant l'ampleur du glissement sémantique. Le glissement sémantique est défini comme l'évolution de la représentation codée d'un mot après l'ajustement fin d'un Grand Modèle de Langage (LLM) pré-entraîné sur un corpus de texte spécifique à une communauté.

54
NEWS↑ trendingReddit r/MachineLearning·21/04/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Chaperone-Thinking-LQ-1.0, un modèle DeepSeek-R1-32B de 4 bits quantifié GPTQ et affiné avec QLoRA, a été mis en open source. Il atteint 84 % de précision sur MedQA, proche de GPT-4o, pour une taille d'environ 20 Go et est 1,6 fois plus rapide que le modèle de base.

48
ARTICLE↑ trendingReddit r/MachineLearning·18/04/2026

Trials and tribulations fine-tuning & deploying Gemma-4 [P]

Une équipe ML a documenté les défis techniques rencontrés lors du fine-tuning et du déploiement de Gemma-4. Les problèmes majeurs comprenaient l'incompatibilité de PEFT avec les couches personnalisées de Gemma 4, SFTTrainer brisant silencieusement l'attention de partage KV, et DeepSpeed ZeRO-3 enregistrant des adaptateurs LoRA à moitié vides.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

[Model Release] I trained a 9B model to be agentic Data Analyst (Qwen3.5-9B + LoRA). Base model failed 100%, this LoRA completes 89% of workflows without human intervention.

Um desenvolvedor treinou um modelo Qwen3.5-9B com LoRA para atuar como analista de dados agente, focando em autonomia através de pesos. O modelo alcançou 89% de conclusão de fluxos de trabalho de ponta a ponta sem intervenção humana, superando a falha total do modelo base.

42
ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

L'auteur passe du réglage fin de transformateurs denses au Nemotron 3 Nano de NVIDIA (une architecture hybride Mamba-Attention-MoE) pour le raisonnement multi-tâches. Il cherche des conseils sur la manière dont l'architecture hybride impacte la recette standard de réglage fin LoRA, son expérience antérieure étant limitée aux modèles denses.

42
RESEARCHarXiv CS.AI·il y a 5j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

33
RESEARCHarXiv CS.LG·20/04/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia propose une méthode de sélection de couches guidée par le gradient pour l'ajustement fin de LoRA, ciblant les couches les plus pertinentes pour la tâche avec une allocation de rang asymétrique. Cette approche permet une accélération de l'entraînement de 15 à 28 % sur diverses architectures de modèles de langage, tout en conservant les performances.

32
RESEARCHarXiv CS.LG·21/04/2026

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Cette recherche présente un modèle de récompense génératif (GRM) basé sur des rubriques pour améliorer le réglage fin renforcé (RFT) des agents LLM dans les tâches d'ingénierie logicielle (SWE). En fournissant des signaux d'apprentissage plus riches au-delà des récompenses terminales binaires, cette approche façonne les comportements intermédiaires et améliore significativement la qualité du processus de résolution.

31
RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

30
RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

29
DOCDEV.to AI·il y a 16j

96. LoRA: Fine-Tune a Billion-Parameter Model on a Laptop

L'article explique comment la technique LoRA (Low-Rank Adaptation) permet l'ajustement fin de modèles de langage à milliards de paramètres sur du matériel grand public, comme les ordinateurs portables. Au lieu de mettre à jour tous les paramètres, LoRA ajoute de minuscules modules entraînables, réduisant considérablement les exigences en mémoire GPU.

28
RESEARCHarXiv CS.LG·15/04/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) est une nouvelle méthode pour améliorer l'adaptation de rang faible (LoRA) dans le réglage fin des grands modèles de langage. Elle introduit une expansion polynomiale structurée dans l'espace des facteurs de rang faible pour modéliser des interactions non linéaires d'ordre supérieur, surmontant les limites linéaires de LoRA sans augmenter le rang ou le coût d'inférence.

28