← heapsort-ai

LLMs

724 items

RESEARCHarXiv CS.CL·20/4/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience se presenta como un asistente LLM proactivo para acelerar el descubrimiento biomédico mediante la mejora de la colaboración entre IA y expertos humanos. Utiliza PULI, un nuevo marco de aprendizaje por refuerzo para intervenciones oportunas, y también introduce BSDD, un nuevo conjunto de datos de diálogo de investigación simulado.

27
ARTICLEDEV.to AI·4/5/2026

The Hidden Cost of MCP: Why AI Agents Need Code Mode

El contenido aborda el costo oculto de que los agentes de IA carguen catálogos completos de herramientas en contexto, lo que eleva los costos y la latencia. Propone el "Modo Código" como solución, permitiendo a los agentes descubrir herramientas según sea necesario y orquestar flujos de trabajo mediante código, reduciendo el contexto y optimizando costos en producción.

27
RESEARCHDEV.to AI·7/5/2026

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

Un nuevo estudio demuestra que los modelos de lenguaje multimodal (LLMs) como GPT-4.1 muestran una caída significativa en la precisión diagnóstica en casos reales de dermatología hospitalaria, en comparación con los benchmarks públicos. La investigación, que abarcó 5.811 casos, reveló que GPT-4.1 alcanzó un 24,65% de precisión en entornos clínicos reales frente a un 42,25% en los benchmarks.

27
ARTICLEDEV.to AI·1/5/2026

Building Production-Grade Tools for AI Agents: What Works After 100 Deployments

Este artículo sostiene que el diseño de herramientas es más crítico que la ingeniería de prompts para la fiabilidad de los agentes de IA en producción, previniendo alucinaciones a nivel estructural. Basado en más de 100 implementaciones, promete compartir patrones concretos, ejemplos de código y anti-patrones para construir herramientas de IA robustas.

27
DOCDEV.to AI·hace 17d

Building a cost-efficient LLM caching layer in Python

Este tutorial explica cómo construir una capa de caché de LLM rentable en Python para reducir los costos de la API. Emplea coincidencias exactas con Redis y detección semántica de duplicados cercanos mediante similitud de coseno. Este enfoque puede generar ahorros mensuales sustanciales al evitar llamadas redundantes a la API.

27
ARTICLEDEV.to AI·10/5/2026

How To Select an Enterprise LLM

El artículo trata sobre la creciente competencia en la implementación de LLMs empresariales, destacando nuevos modelos de OpenAI y Mistral AI. Subraya la necesidad de un enfoque sistemático de benchmarking que considere la latencia, el costo y el rendimiento específico de la tarea, instando a las organizaciones a utilizar un marco de evaluación multifásico para alinear modelos con los objetivos comerciales.

27
ARTICLEDEV.to AI·hace 25d

The Livingrimoire advantage: a tiny “welcome back” skill that LLMs can’t match

El artículo presenta la habilidad "DiOkaeri" de Livingrimoire, mostrando cómo proporciona respuestas conductuales específicas y dependientes del tiempo que los modelos de lenguaje grandes (LLM) no pueden replicar de forma fiable. Destaca que el desarrollo de agentes de IA robustos requiere una arquitectura dedicada para la generación de comportamiento, yendo más allá de las capacidades solo de texto de los LLM.

27
ARTICLEDEV.to AI·hace 26d

The primary reader changed

El artículo explora cómo los agentes de IA leen el código de una manera fundamentalmente diferente a los humanos, lo que resulta en un aumento de 7.5 veces en el costo de los tokens. Este cambio en el "lector primario" introduce una nueva dinámica de costos y requiere una reevaluación de los patrones de programación existentes.

27
ARTICLEDEV.to AI·hace 28d

Stop feeding raw HTML to your LLMs (Solving the Agentic Token Tax)

Los agentes de IA autónomos que interactúan con la web se ven afectados por un 'Impuesto de Token Agéntico' debido a la alimentación ineficiente de HTML sin procesar a los LLMs, lo que genera altos costos de API y latencia. Este enfoque a menudo falla con aplicaciones web modernas; por lo tanto, se propone un protocolo determinista como Web Speed como una solución más robusta que los raspadores mejorados.

27
ARTICLEDEV.to AI·hace 26d

Giving AI agents knowledge they were never trained on

La herramienta docs-mcpserver permite a los agentes de IA acceder a conocimientos específicos, como especificaciones internas o versiones particulares de bibliotecas, leyendo varios formatos de documentación como Markdown, referencias de API y esquemas. Esto ayuda a los LLMs a codificar con precisión sin adivinar APIs o desperdiciar tokens en un análisis exhaustivo.

27