RESEARCHarXiv CS.AI·4/5/2026
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
Este trabajo presenta AgentFloor, un benchmark determinista de 30 tareas organizado como una escala de capacidad de seis niveles para evaluar el uso de herramientas en modelos de IA. Los resultados revelan que los modelos de peso abierto pequeños y medianos son suficientes para gran parte del trabajo estructurado de uso de herramientas a corto plazo en los sistemas de agentes reales.
28
