RESEARCHarXiv CS.AI·04/05/2026
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
Este trabalho introduz o AgentFloor, um benchmark determinístico de 30 tarefas para avaliar a capacidade de uso de ferramentas de modelos de IA, organizadas em uma escada de seis níveis. Os resultados revelam que modelos abertos pequenos e de médio porte são suficientes para tarefas rotineiras de uso de ferramentas de curto prazo em pipelines de agentes.
28
