ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026
Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]
L'auteur passe du réglage fin de transformateurs denses au Nemotron 3 Nano de NVIDIA (une architecture hybride Mamba-Attention-MoE) pour le raisonnement multi-tâches. Il cherche des conseils sur la manière dont l'architecture hybride impacte la recette standard de réglage fin LoRA, son expérience antérieure étant limitée aux modèles denses.
42