RESEARCH28

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

arXiv CS.AI·4 mai 2026

Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.

Open-Weight Models LLMs Benchmarking tool use AI agents

Lire l'original ↗