RESEARCH28
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
arXiv CS.AI·4 mai 2026
Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.
Lire l'original ↗