← heapsort-ai

Open-Weight Models

2 items

RESEARCHarXiv CS.AI·5/4/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Diese Arbeit stellt AgentFloor vor, einen deterministischen 30-Aufgaben-Benchmark, der als sechs-stufige Fähigkeitsleiter organisiert ist, um die Werkzeugnutzungsfähigkeiten von KI-Modellen zu bewerten. Die Ergebnisse zeigen, dass kleine und mittelgroße Open-Weight-Modelle bereits für einen Großteil der kurzfristigen, strukturierten Werkzeugnutzungsaufgaben in realen Agenten-Pipelines ausreichen.

28