← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.AI·7/4/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

28
RESEARCHarXiv CS.CL·9/4/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
ARTICLEDEV.to AI·hace 23d

I Built an MCP Server for My Flower Shop. Nobody Asked Me To.

Este artículo detalla la humorística "sobreingeniería" de una floristería de Múnich de 60 años mediante la construcción de un servidor MCP que aprovecha grandes modelos de lenguaje como Claude, Gemini y Mistral. Describe la pila técnica, las herramientas personalizadas desarrolladas para la búsqueda de flores y las ideas del autor sobre la eficacia de los LLM para flujos de comercio estructurados.

28
ARTICLEDEV.to AI·hace 22d

The Insight-Free Property of Vendor RAGs — A Feature, Not a Bug

El autor utilizó el asistente de IA oficial de Streamlit y Snowflake, basado en RAG, para revisar un borrador técnico y encontró sus respuestas educadas pero sin ideas nuevas. Solo parafraseó los puntos existentes y añadió fragmentos de código, lo que llevó al autor a considerar que esta falta de perspicacia podría ser una característica intencional y no un error.

28
ARTICLEDEV.to AI·19/4/2026

The $6.7 Billion Blind Spot: Why AI Hallucination Is Now a C-Suite Risk Crisis

La alucinación de la IA, donde los modelos generan información falsa con confianza, es un riesgo multimillonario para las empresas, que abarca sanciones regulatorias, litigios y daño reputacional. Esta característica inherente de los LLMs, que predicen tokens en lugar de razonar, representa una crisis de riesgo importante para la alta dirección.

28
RESEARCHarXiv CS.CL·20/4/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artículo analiza los comportamientos interpretativos de los LLM para el cumplimiento automatizado de códigos, utilizando un análisis de atribución basado en perturbaciones para comparar diferentes estrategias de ajuste fino y escalas de modelo. Los resultados muestran que el ajuste fino completo produce patrones de atribución más enfocados, y los modelos más grandes priorizan elementos textuales específicos.

28
RESEARCHarXiv CS.AI·4/5/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Este trabajo presenta AgentFloor, un benchmark determinista de 30 tareas organizado como una escala de capacidad de seis niveles para evaluar el uso de herramientas en modelos de IA. Los resultados revelan que los modelos de peso abierto pequeños y medianos son suficientes para gran parte del trabajo estructurado de uso de herramientas a corto plazo en los sistemas de agentes reales.

28
RESEARCHarXiv CS.AI·9/4/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

28
RESEARCHarXiv CS.CL·15/4/2026

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Este artículo de investigación analiza la capacidad de los LLM para comprender significados abstractos, demostrando que modelos como GPT-4o tienen dificultades en configuraciones zero-shot, one-shot y few-shot, mientras que modelos ajustados como BERT y RoBERTa rinden mejor. Propone un clasificador de atención bidireccional que mejora significativamente la precisión de los modelos ajustados en la interpretación de conceptos abstractos.

28
RESEARCHarXiv CS.AI·9/5/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Este artículo de posición argumenta que la adulación en los LLM es un fallo de límite entre la alineación social y la integridad epistémica. Propone que la adulación no es solo un acuerdo, sino un comportamiento de alineación que desplaza el juicio epistémico independiente, delineando un marco de tres condiciones para definirla.

28
RESEARCHarXiv CS.CL·23/4/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Esta investigación propone un marco para cuantificar la descalibración entre la intensidad retórica y el fundamento epistémico en los Grandes Modelos de Lenguaje (LLM). El estudio, que aplica una taxonomía de marcadores epistémico-retóricos a textos argumentativos, identifica una firma epistémica consistente de los LLM, mostrando un uso diferente de dispositivos retóricos y marcadores de vacilación en comparación con los humanos.

28
RESEARCHarXiv CS.AI·7/5/2026

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Este trabajo de investigación sostiene que el cuello de botella en el razonamiento temporal de los grandes modelos de lenguaje no es la deducción lógica, sino la representación no estructurada de texto a evento. Presenta un marco neuro-simbólico de preguntas y respuestas que utiliza una Señal de Inconsistencia Probabilística (PIS) para desvincular la extracción semántica del razonamiento simbólico.

28
RESEARCHarXiv CS.CL·hace 20d

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Esta investigación examina cómo varios niveles de cuantificación de bits bajos afectan el rendimiento de LLaMA-3.1 en el análisis cualitativo, señalando que los modelos de bajo bit a menudo producen alucinaciones. Propone un método de verificación de prompt multipaso consciente de la cuantificación para mejorar la precisión reduciendo sistemáticamente las alucinaciones y filtrando contenido poco fiable.

28
ARTICLEDEV.to AI·18/4/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Este artículo advierte contra el uso de IA generativa como ChatGPT en el bienestar infantil, argumentando que su naturaleza probabilística y tendencia a alucinar la hacen inadecuada para decisiones críticas. Destaca que la automatización 'suficientemente buena' es inaceptable cuando el futuro de un niño está en juego, arriesgando la invención de falsos indicadores de riesgo.

28
RESEARCHarXiv CS.CL·hace 28d

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

El artículo presenta ClinicalBench, un nuevo benchmark de 400 preguntas para evaluar la recuperación sensible a afirmaciones en la respuesta a preguntas clínicas en MIMIC-IV usando notas de historias clínicas electrónicas reales. También describe EpiKG, un sistema de grafo de conocimiento del paciente que mejora la recuperación al considerar la negación y la temporalidad, mostrando una mejora significativa en el rendimiento de los LLMs clínicos.

28