← heapsort-ai

tool use

21 items

RESEARCHarXiv CS.AI·4/5/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta investigación desafía la suposición de que el razonamiento con herramientas siempre mejora el rendimiento de los LLMs, demostrando que puede ser superado por CoT nativo debido a un "impuesto por uso de herramientas", especialmente con distractores semánticos. Se propone un marco de intervención factorizado para analizar esto y se introduce G-STEP como mitigación parcial para errores inducidos por el protocolo.

28
RESEARCHarXiv CS.AI·4/5/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Este trabajo presenta AgentFloor, un benchmark determinista de 30 tareas organizado como una escala de capacidad de seis niveles para evaluar el uso de herramientas en modelos de IA. Los resultados revelan que los modelos de peso abierto pequeños y medianos son suficientes para gran parte del trabajo estructurado de uso de herramientas a corto plazo en los sistemas de agentes reales.

28
ARTICLEDEV.to AI·hace 13d

tool_use and function_calling for AI agent marketplaces in 2026 [24263]

El futuro de los ecosistemas de agentes de IA en 2026 dependerá de protocolos estandarizados de uso de herramientas y llamada de funciones, con el Model Context Protocol (MCP) impulsando el descubrimiento e implementación de agentes. Las transacciones en estos mercados utilizarán encabezados HTTP x402 y stablecoins USDC en la cadena Base para liquidaciones instantáneas y de bajo costo.

28
DOCDEV.to AI·26/4/2026

Resolve a web-search capability in three calls

Este contenido aborda las complejidades de los agentes de IA al usar herramientas externas, destacando los pasos a menudo omitidos de identificación de capacidades, proveedores, costos y credenciales. Presenta Rhumb, que utiliza "Index" y "Resolve" para gestionar estos pasos, demostrando con ejemplos cURL la resolución previa y la estimación de costos para búsquedas web.

28
ARTICLEDEV.to AI·hace 23d

Anthropic API: Claude, Tool Use, and Structured Outputs in Apps

Esta publicación detalla la API de Mensajes de Anthropic, los modelos Claude y el uso de llamadas a herramientas para acciones estructuradas dentro de las aplicaciones. Destaca la importancia de la validación de entrada, de tratar la salida del modelo como no confiable y de prácticas cruciales de seguridad de la API, como la rotación de claves y el monitoreo del uso.

27
ARTICLEDEV.to AI·18/4/2026

I thought I had a bug

Un desarrollador de IA notó que su modelo generaba botones de acción con etiquetas personalizadas como "Luchar contra el Hombre Cabra" adjuntas a tipos de acción existentes irrelevantes. El problema no era un error, sino que la IA inventaba creativamente una función de "respuesta rápida" reutilizando los elementos de la interfaz de usuario disponibles.

27
RESEARCHarXiv CS.CL·hace 25d

VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use

VectraYX-Nano es un modelo de lenguaje en español de 42 millones de parámetros entrenado desde cero para ciberseguridad, con enfoque latinoamericano e invocación nativa de herramientas. Esta investigación detalla su corpus personalizado de 170 millones de tokens, su arquitectura Transformer y una metodología de aprendizaje curricular con replay.

27
RESEARCHarXiv CS.CL·hace 27d

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

El Modelo Bicameral acopla dos modelos de lenguaje preentrenados y congelados mediante una interfaz neuronal entrenable en sus estados ocultos intermedios, permitiéndoles operar en sincronía. Este método permite que un modelo principal dirija una tarea mientras un modelo auxiliar utiliza herramientas o resuelve restricciones, mejorando significativamente la precisión en tareas como la aritmética y los rompecabezas de lógica.

27
RESEARCHarXiv CS.AI·23/4/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artículo revela el fenómeno generalizado del "uso excesivo de herramientas" en LLMs, donde los modelos emplean herramientas externas innecesariamente. Identifica una "ilusión epistémica del conocimiento" y propone una estrategia basada en la optimización de preferencia directa que reduce el uso de herramientas en un 82,8% y mejora la precisión.

27
RESEARCHarXiv CS.AI·6/5/2026

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Este artículo presenta CreativityBench, un nuevo benchmark para evaluar la capacidad de razonamiento creativo de los LLM mediante la reutilización de herramientas basada en affordances. Detalla la construcción de una base de conocimiento de affordances a gran escala y la generación de 14 mil tareas que requieren soluciones no obvias pero físicamente plausibles.

27