RESEARCH28
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
arXiv CS.AI·4 de maio de 2026
Este trabalho introduz o AgentFloor, um benchmark determinístico de 30 tarefas para avaliar a capacidade de uso de ferramentas de modelos de IA, organizadas em uma escada de seis níveis. Os resultados revelam que modelos abertos pequenos e de médio porte são suficientes para tarefas rotineiras de uso de ferramentas de curto prazo em pipelines de agentes.
Ler original ↗