RESEARCH28

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

arXiv CS.AI·4 de maio de 2026

Este trabalho introduz o AgentFloor, um benchmark determinístico de 30 tarefas para avaliar a capacidade de uso de ferramentas de modelos de IA, organizadas em uma escada de seis níveis. Os resultados revelam que modelos abertos pequenos e de médio porte são suficientes para tarefas rotineiras de uso de ferramentas de curto prazo em pipelines de agentes.

Open-Weight Models LLMs Benchmarking tool use AI agents

Ler original ↗