LLMs

722 items

ARTICLEDEV.to AI·17/4/2026

I Run 14 AI Agents 24/7 on a 16GB MacBook — Here's What Broke First

El autor ejecuta 14 agentes de IA 24/7 en un MacBook de 16GB, desafiando el consenso de que se necesita hardware potente para cargas de trabajo serias. Estos agentes, que orquestan un negocio real, se gestionan en oleadas con solo 1-3 ejecutándose simultáneamente para mantener un estado persistente.

AI orchestration LLMs Local AI hardware

ARTICLEDEV.to AI·hace 22d

AI Coding Tools Need Better Boundaries, Not Better Prompts

Las herramientas de codificación con IA son excelentes para la creación rápida de prototipos, pero pueden degradar la mantenibilidad a largo plazo debido a la falta de límites y convenciones claras. En lugar de depender de prompts complejos, enfoques como el Desarrollo Orientado a Especificaciones (SDD) son vitales para definir contratos y validar especificaciones antes de la implementación, viendo los LLMs como motores de implementación.

LLMs spec-driven development code generation software engineering

ARTICLEDEV.to AI·hace 26d

Your OpenClaw Bill Is Bleeding Tokens. Here’s What We Measured — and How to Fix It.

Este artículo aborda el problema del alto consumo de tokens en pilas de agentes LLM como OpenClaw, causado por el inflado de memoria y la pérdida de compactación. Propone soluciones para reducir el gasto de tokens en aproximadamente un 32% sin disminuir la inteligencia del agente, enfocándose en un enfoque de recuperación primero.

LLMs memory management cost reduction token optimization

ARTICLEDEV.to AI·2/5/2026

I Built a Benchmark for the Failures Generic LLM Evaluations Miss

El autor señala que los benchmarks genéricos de LLMs no logran capturar fallas críticas de 'juicio' en flujos de trabajo reales, como la sobrestimación o el mal manejo de precios. Desarrolló un nuevo benchmark para medir específicamente estos errores de comportamiento complejos que las evaluaciones típicas pasan por alto.

LLMs AI limitations benchmarking AI evaluation

RESEARCHarXiv CS.CL·7/4/2026

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMs reinforcement learning code generation program execution simulation

RESEARCHarXiv CS.CL·hace 19d

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Este artículo presenta OGCaReBench, un nuevo benchmark centrado en la recuperación para evaluar la capacidad de los LLMs de responder a preguntas clínicas que van más allá de las pautas médicas típicas. Aborda la brecha de que la mayoría de los LLMs médicos están entrenados en conocimientos comunes y centrados en pautas, mientras que la práctica real a menudo implica casos raros no cubiertos por estas.

LLMs benchmarking case reports medical AI

RESEARCHarXiv CS.LG·hace 23d

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

Este artículo propone la auto-destilación en-política (OPSA) para reducir el "impuesto de seguridad" en la alineación de seguridad de los LLM. OPSA aborda el desajuste distribucional del entrenamiento fuera de política haciendo que el modelo genere sus propias trayectorias y reciba supervisión KL densa.

LLMs machine learning alignment AI safety

RESEARCHarXiv CS.LG·hace 16d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·hace 16d

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Los grandes modelos de lenguaje (LLMs) muestran asimetrías consistentes al asesorar sobre conversiones religiosas, favoreciendo algunas religiones como la Católica, Baháʼí y Sikh, y desfavoreciendo sutilmente a otras como Ateos y Testigos de Jehová. Estos patrones varían según el modelo y el proveedor, con Grok 4.20 exhibiendo las asimetrías más fuertes, identificadas mediante un marco de evaluación con LLMs como jueces.

LLMs Religion faith AI ethics

RESEARCHarXiv CS.CL·hace 6d

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Un estudio empírico a gran escala evalúa la robustez de las señales lingüísticas para caracterizar el texto generado por IA. El análisis muestra que los clasificadores basados únicamente en características lingüísticas distinguen de forma fiable el texto generado por IA del texto humano, destacando la riqueza léxica como un indicador robusto.

robustness LLMs AI-generated text text detection

ARTICLEDEV.to AI·16/4/2026

"The Real Cost of Compute: Why AI Agents Are Rethinking Their Economics in 2026"

En 2026, el coste prohibitivo de la computación para grandes modelos de lenguaje y agentes de IA autónomos está obligando a las empresas a replantearse la economía de la IA. Muchas están descubriendo que los modelos más pequeños y especializados ofrecen una mejor relación coste-eficacia y rendimiento que los LLM de última generación para tareas del mundo real.

LLMs AI economics Enterprise AI compute costs

RESEARCHarXiv CS.CL·hace 8d

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

Este artículo presenta DOPA, un marco de búsqueda de demostraciones para un aprendizaje robusto en contexto con Grandes Modelos de Lenguaje (LLMs). DOPA incorpora un proxy OOD para aproximar el dominio objetivo inaccesible y una restricción de diversidad global basada en la distancia de Mahalanobis.

LLMs learning machine learning in-context learning

RESEARCHarXiv CS.AI·hace 6d

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

Este artículo presenta SMAC-Talk, una extensión del StarCraft Multi-Agent Challenge, para evaluar agentes basados en LLM en entornos cooperativos multiagente. Incluye un canal de comunicación en lenguaje natural para investigar la coordinación y la confianza de los agentes, así como escenarios con comunicadores engañosos.

LLMs Natural Language Processing StarCraft multi-agent systems

RESEARCHarXiv CS.LG·hace 12d

Molecular Lead Optimization via Agentic Tool Planning

Este artículo presenta TRACE, un agente de razonamiento LLM consciente de la trayectoria para la optimización molecular de leads, abordando la limitación de la optimización molecular en un solo paso. Formula la selección de herramientas como un problema de toma de decisiones secuenciales sobre trayectorias de acción, esencial para transformar los compuestos iniciales en candidatos a fármacos viables. TRACE busca mejorar las propiedades relacionadas con ADMET mediante un refinamiento estructural sutil, preservando las subestructuras moleculares clave.

LLMs Molecular Optimization AI in chemistry drug discovery

ARTICLEDEV.to AI·hace 25d

Word Embeddings Explained: The Math Behind AI, LLMs, and Chatbots

Este artículo explica el concepto de word embeddings, que representan palabras como vectores en un espacio de alta dimensión. Detalla las operaciones matemáticas clave detrás de su funcionamiento, como distancia, similitud y producto escalar, ilustrándolas con ejemplos numéricos.

chatbots LLMs learning AI

ARTICLEDEV.to AI·hace 22d

Looking for a Founding Engineer / Technical Partner (AI Agent + Fintech Rails)

Un fundador de startup busca un líder técnico full-stack senior para unirse como ingeniero fundador y ser dueño de la arquitectura del producto. El rol implica construir una IA inteligente para ingerir y analizar autónomamente contratos legales, extrayendo entregables y cronogramas de pago, dentro de un contexto fintech.

hiring LLMs FinTech Startup

ARTICLEDEV.to AI·8/5/2026

AI Slop Is a Commitment Problem

El artículo analiza cómo el "AI slop", contenido plausible generado sin esfuerzo por la IA, está dañando las comunidades en línea. Argumenta que la capacidad de generar rápidamente grandes volúmenes de texto ha socavado el valor del esfuerzo como indicador de legitimidad y conocimiento.

LLMs online-communities digital legitimacy content quality

ARTICLEDEV.to AI·8/4/2026

Why Skillware is the Next Evolution for Autonomous Agents

O Skillware é introduzido como um framework Python inovador para agentes de IA, visando superar as limitações das abordagens baseadas em prompts na execução de lógica de negócios complexa. Ele permite empacotar inteligência e capacidades como unidades instaláveis, definindo comportamentos complexos de forma modular para maior confiabilidade empresarial.

LLMs frameworks Python Enterprise AI

DOCDEV.to AI·hace 28d

Build a Medical Chart Coding Pipeline with Daimon, Claude, and Neo4j

Daimon, un sidecar de Go, simplifica el desarrollo de aplicaciones LLM al automatizar la infraestructura, como esquemas JSON e integración con bases de datos vectoriales y gráficas. Genera herramientas LLM automáticamente a partir de la configuración, demostrado con la construcción de un pipeline de codificación de historias clínicas.

LLMs Claude application development Neo4j

ARTICLEDEV.to AI·18/4/2026

Why Our LLM-Powered Data Analytics Pipeline in R Broke Down at Scale

Este artículo narra el colapso de un pipeline de análisis de datos en R, impulsado por LLMs, que funcionó bien en una prueba de concepto pero falló estrepitosamente a escala. La historia busca advertir y enseñar sobre los desafíos de integrar modelos de lenguaje en flujos de trabajo de datos en R en producción.

scalability LLMs R programming Production issues