RESEARCH28
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
arXiv CS.AI·4 de mayo de 2026
Este trabajo presenta AgentFloor, un benchmark determinista de 30 tareas organizado como una escala de capacidad de seis niveles para evaluar el uso de herramientas en modelos de IA. Los resultados revelan que los modelos de peso abierto pequeños y medianos son suficientes para gran parte del trabajo estructurado de uso de herramientas a corto plazo en los sistemas de agentes reales.
Leer original ↗