Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI
Ce billet explique comment utiliser Supervised Fine-Tuning (SFT) et Direct Preference Optimization (DPO) pour améliorer la précision de l'appel d'outils d'un petit modèle de langage. Il détaille l'utilisation des tâches d'entraînement Amazon SageMaker AI pour se concentrer sur le code et évaluer la qualité du modèle.