RESEARCH28

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

arXiv CS.AI·4. Mai 2026

Diese Arbeit stellt AgentFloor vor, einen deterministischen 30-Aufgaben-Benchmark, der als sechs-stufige Fähigkeitsleiter organisiert ist, um die Werkzeugnutzungsfähigkeiten von KI-Modellen zu bewerten. Die Ergebnisse zeigen, dass kleine und mittelgroße Open-Weight-Modelle bereits für einen Großteil der kurzfristigen, strukturierten Werkzeugnutzungsaufgaben in realen Agenten-Pipelines ausreichen.

Open-Weight Models LLMs Benchmarking tool use AI agents

Original lesen ↗