RESEARCHarXiv CS.AI·5/4/2026
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?
Diese Arbeit stellt AgentFloor vor, einen deterministischen 30-Aufgaben-Benchmark, der als sechs-stufige Fähigkeitsleiter organisiert ist, um die Werkzeugnutzungsfähigkeiten von KI-Modellen zu bewerten. Die Ergebnisse zeigen, dass kleine und mittelgroße Open-Weight-Modelle bereits für einen Großteil der kurzfristigen, strukturierten Werkzeugnutzungsaufgaben in realen Agenten-Pipelines ausreichen.
28
