Open-Weight Models

RESEARCHarXiv CS.AI·04/05/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.

Open-Weight Models LLMs Benchmarking tool use

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

5 Small Language Models for Agentic Tool Calling