LLMs

722 items

ARTICLEDEV.to AI·18/4/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Este artículo advierte contra el uso de IA generativa como ChatGPT en el bienestar infantil, argumentando que su naturaleza probabilística y tendencia a alucinar la hacen inadecuada para decisiones críticas. Destaca que la automatización 'suficientemente buena' es inaceptable cuando el futuro de un niño está en juego, arriesgando la invención de falsos indicadores de riesgo.

Child welfare LLMs public services AI risks

RESEARCHarXiv CS.CL·hace 28d

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

El artículo presenta ClinicalBench, un nuevo benchmark de 400 preguntas para evaluar la recuperación sensible a afirmaciones en la respuesta a preguntas clínicas en MIMIC-IV usando notas de historias clínicas electrónicas reales. También describe EpiKG, un sistema de grafo de conocimiento del paciente que mejora la recuperación al considerar la negación y la temporalidad, mostrando una mejora significativa en el rendimiento de los LLMs clínicos.

LLMs benchmarking clinical QA medical AI

RESEARCHarXiv CS.CL·hace 28d

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

Model Compression Knowledge Distillation LLMs reinforcement learning

ARTICLEDEV.to AI·5/5/2026

Tool-use API design for LLMs: 5 patterns that prevent agent loops and silent failures

Este artículo aborda cómo los agentes LLM pueden generar costos elevados debido a bucles de recursión y fallos silenciosos derivados de un diseño deficiente de la API de herramientas. Presenta cinco patrones para prevenir estos problemas en sistemas de LLM en producción, enfocándose en el diseño de herramientas en lugar de los prompts.

LLMs Agent Loops software engineering API design

RESEARCHarXiv CS.CL·hace 7d

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Una inspección sistemática de las divisiones de validación de extsf{FOLIO} y extsf{MALLS} reveló altas tasas de formalizaciones FOL incorrectas y oraciones NL ambiguas, distorsionando la evaluación de modelos de IA. Los autores desarrollaron y publicaron verdades fundamentales corregidas para estos conjuntos de datos, demostrando cómo los errores de anotación impactan la evaluación de LLMs de última generación.

LLMs Neurosymbolic AI Natural Language Processing benchmarks

RESEARCHarXiv CS.AI·hace 7d

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Esta investigación explora el uso de andamios de grafos visuales para organizar el razonamiento en Grandes Modelos de Lenguaje (LLMs), inspirándose en los mapas mentales humanos. Experimentos en tareas de respuesta a preguntas de varios saltos revelan que la guía visual de grafos mejora significativamente la eficiencia del razonamiento y la calidad de las respuestas en comparación con las representaciones textuales.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·hace 7d

Greener Than Humans? Environmental Attitudes in Large Language Models

Este artículo desarrolla un punto de referencia para evaluar las actitudes ambientales en los Grandes Modelos de Lenguaje (LLMs), comparando sus respuestas con encuestas humanas. La investigación revela que muchos LLMs se alinean más con actitudes ambientalmente progresistas que el encuestado humano promedio.

LLMs benchmarking sustainability environmental attitudes

RESEARCHDEV.to AI·7/5/2026

The 55.6% problem: why frontier LLMs fail at embedded code

Los LLMs de frontera muestran un rendimiento sorprendentemente bajo (alrededor del 50-55%) en tareas de código embebido, según el nuevo benchmark EmbedBench. Esto destaca una brecha significativa en comparación con su rendimiento en otras áreas de desarrollo, a pesar de las pruebas en pocas plataformas de hardware.

LLMs AI limitations firmware benchmarking

ARTICLEDEV.to AI·hace 11d

The NSA Said MCP Is a National Security Problem. Here's How to Actually Fix It.

La NSA ha declarado que el Protocolo de Contexto del Modelo (MCP) es un problema de seguridad nacional debido a la superficie de ataque que crea su arquitectura de llamada a herramientas en la automatización de IA. Este artículo detalla cómo implementar las directrices de la NSA para abordar estas vulnerabilidades.

LLMs cybersecurity security AI safety

RESEARCHDEV.to AI·hace 13d

I gave ADHD to Claude.. its thinking 2x better now

El autor propone un nuevo patrón de pensamiento de IA, "ADHD - Parallel Divergent Ideation for Coding Agents", inspirado en el pensamiento divergente. Sugiere reemplazar la "Chain-of-thoughts" lineal por un "Tree-of-thoughts" para que los modelos de IA conecten ideas dispares y piensen de forma más creativa.

LLMs cognitive AI Divergent thinking AI

ARTICLEDEV.to AI·hace 5d

Context Engineering: The Skill Replacing Prompt Engineering in 2026

La ingeniería de contexto es la disciplina de diseñar sistemáticamente el entorno de información que rodea una instrucción en sistemas LLM. Esta habilidad, que se espera reemplace la ingeniería de prompts para 2026, se centra en lo que el modelo necesita saber para funcionar bien, en lugar de solo lo que debe hacer.

LLMs prompt-engineering Context Engineering learning

DOCDEV.to AI·22/4/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Los sistemas de Generación Aumentada por Recuperación (RAG) se presentan como un enfoque revolucionario para que las empresas construyan sistemas de conocimiento inteligentes, combinando LLMs con conocimiento de dominio específico. Esta guía, basada en la experiencia de Groovy Web con empresas Fortune 500, cubre el proceso integral de construcción e implementación de sistemas RAG listos para producción, desde la arquitectura hasta la monitorización.

LLMs RAG knowledge management Enterprise AI

RESEARCHarXiv CS.AI·13/4/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

LLMs reasoning tasks reinforcement learning PPO

RESEARCHarXiv CS.CL·10/4/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

ARTICLEDEV.to AI·11/4/2026

The Future of AI Integration: Model Context Protocol (MCP) Connectors

El Model Context Protocol (MCP) de Anthropic es un nuevo estándar abierto que resuelve el problema de integración de datos "N×M" para LLMs. Estandariza la interacción entre aplicaciones de IA y servicios externos, siendo una solución transformadora para ecosistemas de agentes autónomos.

AI integration LLMs MCP Connectors Model Context Protocol

ARTICLEDEV.to AI·hace 20d

One Tool That Cuts Token Costs 40-80% for Claude Code, Codex, opencode, and openclaw

Este artículo identifica cuatro patrones estructurales que aumentan significativamente los costos de tokens para modelos de IA como Claude Code y Codex, destacando que la optimización de prompts por sí sola es insuficiente. Los problemas incluyen capturas de pantalla a resolución completa, lecturas repetidas de archivos, compactación que pierde contexto y salida Bash no optimizada, que en conjunto elevan las facturas de la API.

token management LLMs Cost Optimization AI

DOCDEV.to AI·26/4/2026

How to Deploy Llama 3.2 70B with Ollama on a $18/Month DigitalOcean Droplet: Memory-Optimized Self-Hosting

Este contenido guía a los usuarios sobre cómo desplegar Llama 3.2 70B con Ollama en un droplet de DigitalOcean de $18/mes, demostrando un ahorro significativo de costos en comparación con el uso de API. Muestra cómo lograr inferencia de LLM a escala de grado de producción con una calidad comparable a las APIs comerciales, haciendo que la IA avanzada sea accesible para desarrolladores serios.

LLMs deployment self-hosting Cost Optimization

ARTICLEDEV.to AI·12/4/2026

Upwork for AI Agents

El contenido aborda la obsolescencia de las plataformas freelancer tradicionales con el auge de los agentes de IA autónomos. Introduce el Mercado Laboral de Agentes (ALM), donde la confianza se basa en manifiestos técnicos y capacidades verificadas de los agentes, con ejemplos como UpAgents.

future-of-work LLMs Agentic Labor Market Freelance Platforms

ARTICLEDEV.to AI·2/5/2026

Why AI Makes Software Fundamentals More Expensive Than Ever

El artículo argumenta en contra de la idea de que los LLMs hacen obsoletas las habilidades de ingeniería, afirmando que los fundamentos del software son más importantes que nunca. Advierte que tratar el código generado por IA como "barato" conduce a la "entropía del software" y al "Voodoo Coding", resultando en una rápida degradación de la calidad.

future-of-work LLMs developer skills code quality

ARTICLEDEV.to AI·18/4/2026

Multi-Agent Architecture: Specialist Routing in an Autonomous Task System

Este artículo detalla una arquitectura de enrutamiento especialista implementada en producción para sistemas de agentes autónomos, argumentando contra la ineficiencia y el costo de usar un único modelo potente y generalista para todas las tareas. Al clasificar las solicitudes y emplear agentes especializados, este enfoque optimiza los gastos y produce resultados más limpios y contextualmente relevantes, basado en su despliegue en producción.

AI architecture LLMs Cost Optimization multi-agent systems