← heapsort-ai

tool use

21 items

RESEARCHarXiv CS.AI·5/4/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Diese Forschung stellt die Annahme in Frage, dass werkzeuggestütztes Denken die LLM-Leistung immer verbessert, und zeigt eine "Tool-Use Tax" durch das Tool-Calling-Protokoll auf, die die Leistung mindern kann. Ein Faktorisiertes Interventionsrahmenwerk wird vorgeschlagen, um dies zu analysieren, und G-STEP wird zur teilweisen Minderung von Protokollfehlern eingeführt.

28
RESEARCHarXiv CS.AI·5/4/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Diese Arbeit stellt AgentFloor vor, einen deterministischen 30-Aufgaben-Benchmark, der als sechs-stufige Fähigkeitsleiter organisiert ist, um die Werkzeugnutzungsfähigkeiten von KI-Modellen zu bewerten. Die Ergebnisse zeigen, dass kleine und mittelgroße Open-Weight-Modelle bereits für einen Großteil der kurzfristigen, strukturierten Werkzeugnutzungsaufgaben in realen Agenten-Pipelines ausreichen.

28
ARTICLEDEV.to AI·vor 13T

tool_use and function_calling for AI agent marketplaces in 2026 [24263]

Die Zukunft der KI-Agenten-Ökosysteme im Jahr 2026 wird auf standardisierten Tool-Use- und Function-Calling-Protokollen basieren, wobei das Model Context Protocol (MCP) die Agentenentdeckung und -bereitstellung vorantreibt. Transaktionen in diesen Marktplätzen werden x402 HTTP-Header und USDC-Stablecoins auf der Base-Kette für sofortige, kostengünstige Abwicklungen nutzen.

28
DOCDEV.to AI·4/26/2026

Resolve a web-search capability in three calls

Dieser Inhalt behandelt die Komplexität der Nutzung externer Tools durch KI-Agenten und hebt die oft übersprungenen Schritte der Fähigkeitsidentifizierung, Anbieter, Kosten und Anmeldeinformationen hervor. Er stellt Rhumb vor, das „Index“ und „Resolve“ zur Verwaltung dieser Schritte nutzt, und demonstriert dies mit cURL-Beispielen für die Vorab-Websuchlösung und Kostenschätzung.

28
DOCDEV.to AI·4/22/2026

How to use Claude's tool use (function calling) in Node.js — with real examples

Dieses Tutorial erklärt, wie man Claudes Tool-Nutzung (Funktionsaufrufe) in Node.js verwendet, um der KI zu ermöglichen, externe Funktionen aufzurufen und deren Ergebnisse für bessere Antworten zu nutzen. Es behandelt den vollständigen Ablauf von der Definition der Tools bis zur Ausführung und Nutzung der Ergebnisse durch Claude, mit praktischen Beispielen.

27
ARTICLEDEV.to AI·vor 23T

Anthropic API: Claude, Tool Use, and Structured Outputs in Apps

Dieser Beitrag beschreibt die Messages API von Anthropic, Claude-Modelle und die Verwendung von Tool-Calling für strukturierte Aktionen in Anwendungen. Er betont die Wichtigkeit der Eingabevalidierung, der Behandlung von Modellausgaben als nicht vertrauenswürdig und wichtiger API-Sicherheitspraktiken wie Schlüsselrotation und Nutzungsüberwachung.

27
ARTICLEDEV.to AI·4/18/2026

I thought I had a bug

Ein KI-Entwickler stellte fest, dass sein Modell Aktionsschaltflächen mit benutzerdefinierten Beschriftungen wie "Kampf Ziegenmann" generierte, die an irrelevante bestehende Aktionstypen angehängt waren. Das Problem war kein Fehler, sondern die KI, die kreativ eine "Schnellantwort"-Funktion erfand, indem sie verfügbare UI-Elemente umfunktionierte.

27
RESEARCHarXiv CS.CL·vor 25T

VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use

VectraYX-Nano ist ein 42-Millionen-Parameter-Sprachmodell in Spanisch, das von Grund auf für Cybersicherheit trainiert wurde, mit lateinamerikanischem Fokus und nativer Werkzeugaufruf-Funktionalität. Die Forschung beschreibt seinen kundenspezifischen Korpus, die Transformer-Architektur und die Curriculum-Lernmethodik mit Replay.

27
RESEARCHarXiv CS.CL·vor 27T

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Das bikamerale Modell koppelt zwei eingefrorene, vortrainierte Sprachmodelle über eine trainierbare neuronale Schnittstelle in ihren Zwischen-Hidden-States, wodurch sie synchron arbeiten können. Diese Methode ermöglicht es einem primären Modell, eine Aufgabe zu steuern, während ein Hilfsmodell Tools verwendet oder Einschränkungen löst, was die Genauigkeit bei Aufgaben wie Arithmetik und Logikrätseln erheblich verbessert.

27
RESEARCHarXiv CS.AI·4/23/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Dieses Papier enthüllt das weit verbreitete Phänomen der „Werkzeugübernutzung“ bei LLMs, bei dem Modelle externe Werkzeuge unnötig einsetzen. Es identifiziert eine „epistemische Wissensillusion“ und schlägt eine auf direkter Präferenzoptimierung basierende Strategie vor, die den Werkzeuggebrauch um 82,8 % reduziert und die Genauigkeit verbessert.

27
RESEARCHarXiv CS.AI·5/6/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Dieses Papier stellt CreativityBench vor, einen neuen Benchmark zur Bewertung der kreativen Denkfähigkeiten von LLMs durch affordance-basiertes Werkzeug-Repurposing. Es beschreibt den Aufbau einer umfangreichen Affordanz-Wissensbasis und die Generierung von 14 Tausend Aufgaben, die nicht-offensichtliche, aber physikalisch plausible Lösungen erfordern.

27