DOC28
Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI
AWS Machine Learning Blog·3. Juni 2026
Dieser Beitrag erklärt, wie man Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) einsetzt, um die Genauigkeit der Tool-Aufrufe eines kleinen Sprachmodells zu verbessern. Er zeigt, wie Amazon SageMaker AI-Trainingsaufträge genutzt werden, um sich auf den Trainingscode zu konzentrieren und die Modellqualität zu bewerten.
Original lesen ↗