← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·18/4/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Este artículo advierte contra el uso de IA generativa como ChatGPT en el bienestar infantil, argumentando que su naturaleza probabilística y tendencia a alucinar la hacen inadecuada para decisiones críticas. Destaca que la automatización 'suficientemente buena' es inaceptable cuando el futuro de un niño está en juego, arriesgando la invención de falsos indicadores de riesgo.

28
RESEARCHarXiv CS.CL·hace 28d

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

El artículo presenta ClinicalBench, un nuevo benchmark de 400 preguntas para evaluar la recuperación sensible a afirmaciones en la respuesta a preguntas clínicas en MIMIC-IV usando notas de historias clínicas electrónicas reales. También describe EpiKG, un sistema de grafo de conocimiento del paciente que mejora la recuperación al considerar la negación y la temporalidad, mostrando una mejora significativa en el rendimiento de los LLMs clínicos.

28
RESEARCHarXiv CS.CL·hace 28d

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

28
ARTICLEDEV.to AI·5/5/2026

Tool-use API design for LLMs: 5 patterns that prevent agent loops and silent failures

Este artículo aborda cómo los agentes LLM pueden generar costos elevados debido a bucles de recursión y fallos silenciosos derivados de un diseño deficiente de la API de herramientas. Presenta cinco patrones para prevenir estos problemas en sistemas de LLM en producción, enfocándose en el diseño de herramientas en lugar de los prompts.

28
RESEARCHarXiv CS.CL·hace 7d

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Una inspección sistemática de las divisiones de validación de extsf{FOLIO} y extsf{MALLS} reveló altas tasas de formalizaciones FOL incorrectas y oraciones NL ambiguas, distorsionando la evaluación de modelos de IA. Los autores desarrollaron y publicaron verdades fundamentales corregidas para estos conjuntos de datos, demostrando cómo los errores de anotación impactan la evaluación de LLMs de última generación.

28
RESEARCHarXiv CS.AI·hace 7d

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Esta investigación explora el uso de andamios de grafos visuales para organizar el razonamiento en Grandes Modelos de Lenguaje (LLMs), inspirándose en los mapas mentales humanos. Experimentos en tareas de respuesta a preguntas de varios saltos revelan que la guía visual de grafos mejora significativamente la eficiencia del razonamiento y la calidad de las respuestas en comparación con las representaciones textuales.

28
DOCDEV.to AI·22/4/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Los sistemas de Generación Aumentada por Recuperación (RAG) se presentan como un enfoque revolucionario para que las empresas construyan sistemas de conocimiento inteligentes, combinando LLMs con conocimiento de dominio específico. Esta guía, basada en la experiencia de Groovy Web con empresas Fortune 500, cubre el proceso integral de construcción e implementación de sistemas RAG listos para producción, desde la arquitectura hasta la monitorización.

28
RESEARCHarXiv CS.AI·13/4/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

28
RESEARCHarXiv CS.CL·10/4/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
ARTICLEDEV.to AI·hace 20d

One Tool That Cuts Token Costs 40-80% for Claude Code, Codex, opencode, and openclaw

Este artículo identifica cuatro patrones estructurales que aumentan significativamente los costos de tokens para modelos de IA como Claude Code y Codex, destacando que la optimización de prompts por sí sola es insuficiente. Los problemas incluyen capturas de pantalla a resolución completa, lecturas repetidas de archivos, compactación que pierde contexto y salida Bash no optimizada, que en conjunto elevan las facturas de la API.

28
DOCDEV.to AI·26/4/2026

How to Deploy Llama 3.2 70B with Ollama on a $18/Month DigitalOcean Droplet: Memory-Optimized Self-Hosting

Este contenido guía a los usuarios sobre cómo desplegar Llama 3.2 70B con Ollama en un droplet de DigitalOcean de $18/mes, demostrando un ahorro significativo de costos en comparación con el uso de API. Muestra cómo lograr inferencia de LLM a escala de grado de producción con una calidad comparable a las APIs comerciales, haciendo que la IA avanzada sea accesible para desarrolladores serios.

28
ARTICLEDEV.to AI·12/4/2026

Upwork for AI Agents

El contenido aborda la obsolescencia de las plataformas freelancer tradicionales con el auge de los agentes de IA autónomos. Introduce el Mercado Laboral de Agentes (ALM), donde la confianza se basa en manifiestos técnicos y capacidades verificadas de los agentes, con ejemplos como UpAgents.

28
ARTICLEDEV.to AI·18/4/2026

Multi-Agent Architecture: Specialist Routing in an Autonomous Task System

Este artículo detalla una arquitectura de enrutamiento especialista implementada en producción para sistemas de agentes autónomos, argumentando contra la ineficiencia y el costo de usar un único modelo potente y generalista para todas las tareas. Al clasificar las solicitudes y emplear agentes especializados, este enfoque optimiza los gastos y produce resultados más limpios y contextualmente relevantes, basado en su despliegue en producción.

28