heapsort
ARTICLE↑ trending42

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Reddit r/MachineLearning·26 de abril de 2026

El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.

Leer original