← heapsort-ai

Open-Weight Models

2 items

RESEARCHarXiv CS.AI·04/05/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Este trabalho introduz o AgentFloor, um benchmark determinístico de 30 tarefas para avaliar a capacidade de uso de ferramentas de modelos de IA, organizadas em uma escada de seis níveis. Os resultados revelam que modelos abertos pequenos e de médio porte são suficientes para tarefas rotineiras de uso de ferramentas de curto prazo em pipelines de agentes.

28