RESEARCH28

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

arXiv CS.AI·4 de mayo de 2026

Este trabajo presenta AgentFloor, un benchmark determinista de 30 tareas organizado como una escala de capacidad de seis niveles para evaluar el uso de herramientas en modelos de IA. Los resultados revelan que los modelos de peso abierto pequeños y medianos son suficientes para gran parte del trabajo estructurado de uso de herramientas a corto plazo en los sistemas de agentes reales.

Open-Weight Models LLMs Benchmarking tool use AI agents

Leer original ↗