← heapsort-ai

tool use

21 items

RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

28
RESEARCHarXiv CS.AI·04/05/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.

28
ARTICLEDEV.to AI·il y a 13j

tool_use and function_calling for AI agent marketplaces in 2026 [24263]

L'avenir des écosystèmes d'agents IA en 2026 reposera sur des protocoles standardisés d'utilisation d'outils et d'appel de fonctions, avec le Model Context Protocol (MCP) favorisant la découverte et le déploiement d'agents. Les transactions sur ces marchés utiliseront les en-têtes HTTP x402 et les stablecoins USDC sur la chaîne Base pour des règlements instantanés et à faible coût.

28
DOCDEV.to AI·26/04/2026

Resolve a web-search capability in three calls

Ce contenu aborde les complexités des agents d'IA utilisant des outils externes, soulignant les étapes souvent ignorées d'identification des capacités, des fournisseurs, des coûts et des informations d'identification. Il présente Rhumb, qui utilise "Index" et "Resolve" pour gérer ces étapes, avec des exemples cURL pour la résolution pré-vol et l'estimation des coûts de recherche web.

28
ARTICLEDEV.to AI·il y a 23j

Anthropic API: Claude, Tool Use, and Structured Outputs in Apps

Ce billet de blog détaille l'API Messages d'Anthropic, les modèles Claude et l'utilisation des appels d'outils pour des actions structurées dans les applications. Il souligne l'importance de la validation des entrées, de considérer la sortie du modèle comme non fiable et des pratiques cruciales de sécurité de l'API, telles que la rotation des clés et le suivi de l'utilisation.

27
ARTICLEDEV.to AI·18/04/2026

I thought I had a bug

Un développeur d'IA a constaté que son modèle générait des boutons d'action avec des étiquettes personnalisées comme "Combattre l'Homme-Chèvre" attachées à des types d'action existants non pertinents. Le problème n'était pas un bug, mais l'IA inventant de manière créative une fonctionnalité de "réponse rapide" en réutilisant les éléments d'interface utilisateur disponibles.

27
RESEARCHarXiv CS.CL·il y a 25j

VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use

VectraYX-Nano est un modèle de langage espagnol de 42 millions de paramètres, entraîné à partir de zéro pour la cybersécurité avec un accent latino-américain et l'invocation d'outils native. Cette recherche décrit son corpus personnalisé, son architecture Transformer et sa méthodologie d'apprentissage par programme avec replay.

27
RESEARCHarXiv CS.CL·il y a 27j

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Le modèle bicaméral couple deux modèles de langage pré-entraînés et figés via une interface neurale entraînable sur leurs états cachés intermédiaires, leur permettant de fonctionner en tandem. Cette méthode permet à un modèle principal de piloter une tâche tandis qu'un modèle auxiliaire utilise des outils ou résout des contraintes, améliorant significativement la précision sur des tâches comme l'arithmétique et les puzzles logiques.

27
RESEARCHarXiv CS.AI·23/04/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Cet article révèle le phénomène répandu de la "surutilisation d'outils" par les LLM, où les modèles emploient des outils externes inutilement. Il identifie une "illusion épistémique de la connaissance" et propose une stratégie basée sur l'optimisation des préférences directes qui réduit l'utilisation d'outils de 82,8 % tout en améliorant la précision.

27
RESEARCHarXiv CS.AI·06/05/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Cet article introduit CreativityBench, un nouveau benchmark pour évaluer la capacité de raisonnement créatif des LLM via la réaffectation d'outils basée sur les affordances. Il détaille la construction d'une base de connaissances d'affordances à grande échelle et la génération de 14 000 tâches nécessitant des solutions non évidentes mais physiquement plausibles.

27