RESEARCHarXiv CS.AI·04/05/2026
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.
28
