LLMs

720 items

ARTICLEDEV.to AI·17/4/2026

I Built a 7-Agent Prompt Framework, Then Used It to Debug Its Own Output

El autor desarrolló un marco de 7 agentes de prompt llamado C.E.H., ejecutándose en LLMs locales, que construyó con éxito un complejo sistema RAG. Enfrentado a 14 fallas en el código generado, el autor utilizó de manera única el propio marco C.E.H. para depurar y corregir su propia salida.

LLMs code debugging RAG multi-agent systems

RESEARCHarXiv CS.AI·7/4/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

LLMs ChatGPT Instrumentation Control large language models

RESEARCHarXiv CS.CL·9/4/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

ARTICLEDEV.to AI·hace 10d

Beyond Static Prompts: How to Build Self-Improving AI Agents with Closed-Loop Skill Playbooks

El contenido aborda el cambio de paradigma de los prompts estáticos a los sistemas de agentes de IA autónomos y auto-mejorables. Destaca los desafíos de construir agentes de IA resilientes en entornos de producción y propone tratar las 'habilidades' no como código estático, sino como elementos vivos y autónomos.

LLMs prompt-engineering Autonomous systems AI development

ARTICLEDEV.to AI·hace 23d

I Built an MCP Server for My Flower Shop. Nobody Asked Me To.

Este artículo detalla la humorística "sobreingeniería" de una floristería de Múnich de 60 años mediante la construcción de un servidor MCP que aprovecha grandes modelos de lenguaje como Claude, Gemini y Mistral. Describe la pila técnica, las herramientas personalizadas desarrolladas para la búsqueda de flores y las ideas del autor sobre la eficacia de los LLM para flujos de comercio estructurados.

open-source LLMs real-world application backend development

ARTICLEDEV.to AI·hace 22d

The Insight-Free Property of Vendor RAGs — A Feature, Not a Bug

El autor utilizó el asistente de IA oficial de Streamlit y Snowflake, basado en RAG, para revisar un borrador técnico y encontró sus respuestas educadas pero sin ideas nuevas. Solo parafraseó los puntos existentes y añadió fragmentos de código, lo que llevó al autor a considerar que esta falta de perspicacia podría ser una característica intencional y no un error.

LLMs Streamlit RAG AI Assistants

ARTICLEDEV.to AI·9/5/2026

Systematic Large Model Debugging Is the Missing Product Discipline

Las fallas de los modelos grandes no son errores, sino fallas de diseño ocultas en la complejidad, y falta una disciplina de depuración sistemática. El artículo propone el Debugging del Ciclo de Vida del Producto para Modelos (PLDM) como un enfoque esencial para prevenir fallas tardías y pérdida de confianza.

LLMs systematic approach product management Debugging

ARTICLEDEV.to AI·19/4/2026

The $6.7 Billion Blind Spot: Why AI Hallucination Is Now a C-Suite Risk Crisis

La alucinación de la IA, donde los modelos generan información falsa con confianza, es un riesgo multimillonario para las empresas, que abarca sanciones regulatorias, litigios y daño reputacional. Esta característica inherente de los LLMs, que predicen tokens en lugar de razonar, representa una crisis de riesgo importante para la alta dirección.

Regulatory Compliance LLMs AI hallucination risk management

RESEARCHarXiv CS.CL·20/4/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artículo analiza los comportamientos interpretativos de los LLM para el cumplimiento automatizado de códigos, utilizando un análisis de atribución basado en perturbaciones para comparar diferentes estrategias de ajuste fino y escalas de modelo. Los resultados muestran que el ajuste fino completo produce patrones de atribución más enfocados, y los modelos más grandes priorizan elementos textuales específicos.

model interpretability LLMs Machine learning research fine-tuning

RESEARCHarXiv CS.AI·4/5/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Este trabajo presenta AgentFloor, un benchmark determinista de 30 tareas organizado como una escala de capacidad de seis niveles para evaluar el uso de herramientas en modelos de IA. Los resultados revelan que los modelos de peso abierto pequeños y medianos son suficientes para gran parte del trabajo estructurado de uso de herramientas a corto plazo en los sistemas de agentes reales.

Open-Weight Models LLMs benchmarking tool use

RESEARCHarXiv CS.AI·9/4/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

Transformer Representations hallucination detection LLMs machine learning

RESEARCHarXiv CS.CL·15/4/2026

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Este artículo de investigación analiza la capacidad de los LLM para comprender significados abstractos, demostrando que modelos como GPT-4o tienen dificultades en configuraciones zero-shot, one-shot y few-shot, mientras que modelos ajustados como BERT y RoBERTa rinden mejor. Propone un clasificador de atención bidireccional que mejora significativamente la precisión de los modelos ajustados en la interpretación de conceptos abstractos.

LLMs GPT-4o NLP abstract meaning comprehension

RESEARCHarXiv CS.CL·23/4/2026

Can We Locate and Prevent Stereotypes in LLMs?

Este estudio investiga dónde residen los estereotipos en LLMs como GPT 2 Small y Llama 3.2. Explora la identificación de activaciones neuronales individuales y cabezas de atención para mapear "huellas de sesgo" y ofrecer conocimientos para su mitigación.

neural networks LLMs bias detection Bias Mitigation

RESEARCHarXiv CS.AI·9/5/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Este artículo de posición argumenta que la adulación en los LLM es un fallo de límite entre la alineación social y la integridad epistémica. Propone que la adulación no es solo un acuerdo, sino un comportamiento de alineación que desplaza el juicio epistémico independiente, delineando un marco de tres condiciones para definirla.

LLMs AI behavior AI alignment epistemic integrity

RESEARCHarXiv CS.CL·23/4/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Esta investigación propone un marco para cuantificar la descalibración entre la intensidad retórica y el fundamento epistémico en los Grandes Modelos de Lenguaje (LLM). El estudio, que aplica una taxonomía de marcadores epistémico-retóricos a textos argumentativos, identifica una firma epistémica consistente de los LLM, mostrando un uso diferente de dispositivos retóricos y marcadores de vacilación en comparación con los humanos.

LLMs AI ethics AI evaluation

RESEARCHarXiv CS.CL·23/4/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 es un marco que mejora los LLMs con un proceso iterativo de Búsqueda-Refinamiento-Razonamiento entrenado mediante aprendizaje por refuerzo. Aborda los desafíos de RAG destilando hechos relevantes de documentos recuperados, mejorando la eficiencia y precisión en QA multi-salto complejo.

multi-hop-qa LLMs reinforcement learning RAG

RESEARCHarXiv CS.AI·7/5/2026

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Este trabajo de investigación sostiene que el cuello de botella en el razonamiento temporal de los grandes modelos de lenguaje no es la deducción lógica, sino la representación no estructurada de texto a evento. Presenta un marco neuro-simbólico de preguntas y respuestas que utiliza una Señal de Inconsistencia Probabilística (PIS) para desvincular la extracción semántica del razonamiento simbólico.

LLMs temporal reasoning Question Answering Neuro-symbolic AI

RESEARCHarXiv CS.CL·hace 20d

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Esta investigación examina cómo varios niveles de cuantificación de bits bajos afectan el rendimiento de LLaMA-3.1 en el análisis cualitativo, señalando que los modelos de bajo bit a menudo producen alucinaciones. Propone un método de verificación de prompt multipaso consciente de la cuantificación para mejorar la precisión reduciendo sistemáticamente las alucinaciones y filtrando contenido poco fiable.

model performance Qualitative Analysis LLMs hallucinations

ARTICLEDEV.to AI·18/4/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Este artículo advierte contra el uso de IA generativa como ChatGPT en el bienestar infantil, argumentando que su naturaleza probabilística y tendencia a alucinar la hacen inadecuada para decisiones críticas. Destaca que la automatización 'suficientemente buena' es inaceptable cuando el futuro de un niño está en juego, arriesgando la invención de falsos indicadores de riesgo.

Child welfare LLMs public services AI risks

RESEARCHarXiv CS.CL·hace 28d

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

El artículo presenta ClinicalBench, un nuevo benchmark de 400 preguntas para evaluar la recuperación sensible a afirmaciones en la respuesta a preguntas clínicas en MIMIC-IV usando notas de historias clínicas electrónicas reales. También describe EpiKG, un sistema de grafo de conocimiento del paciente que mejora la recuperación al considerar la negación y la temporalidad, mostrando una mejora significativa en el rendimiento de los LLMs clínicos.

LLMs benchmarking clinical QA medical AI