← heapsort-ai

multi-task reasoning

2 items

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

O autor está migrando do ajuste fino de transformadores densos para o Nemotron 3 Nano da NVIDIA (uma arquitetura híbrida Mamba-Attention-MoE) para raciocínio multi-tarefa. Ele busca orientação sobre como a arquitetura híbrida afeta a receita padrão de ajuste fino LoRA, pois sua experiência anterior é limitada a modelos densos.

42