← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·hace 22d

AI Coding Tools Need Better Boundaries, Not Better Prompts

Las herramientas de codificación con IA son excelentes para la creación rápida de prototipos, pero pueden degradar la mantenibilidad a largo plazo debido a la falta de límites y convenciones claras. En lugar de depender de prompts complejos, enfoques como el Desarrollo Orientado a Especificaciones (SDD) son vitales para definir contratos y validar especificaciones antes de la implementación, viendo los LLMs como motores de implementación.

28
ARTICLEDEV.to AI·hace 26d

Your OpenClaw Bill Is Bleeding Tokens. Here’s What We Measured — and How to Fix It.

Este artículo aborda el problema del alto consumo de tokens en pilas de agentes LLM como OpenClaw, causado por el inflado de memoria y la pérdida de compactación. Propone soluciones para reducir el gasto de tokens en aproximadamente un 32% sin disminuir la inteligencia del agente, enfocándose en un enfoque de recuperación primero.

28
RESEARCHarXiv CS.CL·hace 19d

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Este artículo presenta OGCaReBench, un nuevo benchmark centrado en la recuperación para evaluar la capacidad de los LLMs de responder a preguntas clínicas que van más allá de las pautas médicas típicas. Aborda la brecha de que la mayoría de los LLMs médicos están entrenados en conocimientos comunes y centrados en pautas, mientras que la práctica real a menudo implica casos raros no cubiertos por estas.

28
RESEARCHarXiv CS.LG·hace 16d

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta investigación propone que el razonamiento de los LLM es un estado de decodificación dinámico, no una propiedad estática, observable a través de la dinámica de entropía en las primeras etapas durante la generación. Las tareas que se benefician de Chain-of-Thought muestran una reducción consistente de la entropía, interpretada como una transición de fase a un régimen de razonamiento estructurado.

28
RESEARCHarXiv CS.CL·hace 16d

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Los grandes modelos de lenguaje (LLMs) muestran asimetrías consistentes al asesorar sobre conversiones religiosas, favoreciendo algunas religiones como la Católica, Baháʼí y Sikh, y desfavoreciendo sutilmente a otras como Ateos y Testigos de Jehová. Estos patrones varían según el modelo y el proveedor, con Grok 4.20 exhibiendo las asimetrías más fuertes, identificadas mediante un marco de evaluación con LLMs como jueces.

28
RESEARCHarXiv CS.CL·hace 6d

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Un estudio empírico a gran escala evalúa la robustez de las señales lingüísticas para caracterizar el texto generado por IA. El análisis muestra que los clasificadores basados únicamente en características lingüísticas distinguen de forma fiable el texto generado por IA del texto humano, destacando la riqueza léxica como un indicador robusto.

28
ARTICLEDEV.to AI·16/4/2026

"The Real Cost of Compute: Why AI Agents Are Rethinking Their Economics in 2026"

En 2026, el coste prohibitivo de la computación para grandes modelos de lenguaje y agentes de IA autónomos está obligando a las empresas a replantearse la economía de la IA. Muchas están descubriendo que los modelos más pequeños y especializados ofrecen una mejor relación coste-eficacia y rendimiento que los LLM de última generación para tareas del mundo real.

28
RESEARCHarXiv CS.CL·hace 8d

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

Este artículo presenta DOPA, un marco de búsqueda de demostraciones para un aprendizaje robusto en contexto con Grandes Modelos de Lenguaje (LLMs). DOPA incorpora un proxy OOD para aproximar el dominio objetivo inaccesible y una restricción de diversidad global basada en la distancia de Mahalanobis.

28
RESEARCHarXiv CS.AI·hace 6d

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

Este artículo presenta SMAC-Talk, una extensión del StarCraft Multi-Agent Challenge, para evaluar agentes basados en LLM en entornos cooperativos multiagente. Incluye un canal de comunicación en lenguaje natural para investigar la coordinación y la confianza de los agentes, así como escenarios con comunicadores engañosos.

28
RESEARCHarXiv CS.LG·hace 12d

Molecular Lead Optimization via Agentic Tool Planning

Este artículo presenta TRACE, un agente de razonamiento LLM consciente de la trayectoria para la optimización molecular de leads, abordando la limitación de la optimización molecular en un solo paso. Formula la selección de herramientas como un problema de toma de decisiones secuenciales sobre trayectorias de acción, esencial para transformar los compuestos iniciales en candidatos a fármacos viables. TRACE busca mejorar las propiedades relacionadas con ADMET mediante un refinamiento estructural sutil, preservando las subestructuras moleculares clave.

28
ARTICLEDEV.to AI·8/4/2026

Why Skillware is the Next Evolution for Autonomous Agents

O Skillware é introduzido como um framework Python inovador para agentes de IA, visando superar as limitações das abordagens baseadas em prompts na execução de lógica de negócios complexa. Ele permite empacotar inteligência e capacidades como unidades instaláveis, definindo comportamentos complexos de forma modular para maior confiabilidade empresarial.

27