← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.AI·4/7/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

28
RESEARCHarXiv CS.CL·4/9/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
ARTICLEDEV.to AI·vor 10T

Beyond Static Prompts: How to Build Self-Improving AI Agents with Closed-Loop Skill Playbooks

Der Inhalt behandelt den Paradigmenwechsel von statischen Prompts zu autonomen, sich selbst verbessernden KI-Agenten-Systemen. Er beleuchtet die Herausforderungen beim Aufbau widerstandsfähiger KI-Agenten in Produktionsumgebungen und schlägt vor, 'Fähigkeiten' nicht als statischen Code, sondern als lebendige, eigenständige Elemente zu behandeln.

28
ARTICLEDEV.to AI·vor 23T

I Built an MCP Server for My Flower Shop. Nobody Asked Me To.

Dieser Artikel beschreibt die humorvolle „Überkonstruktion“ eines 60 Jahre alten Münchner Blumenladens durch den Bau eines MCP-Servers, der große Sprachmodelle wie Claude, Gemini und Mistral nutzt. Er beschreibt den technischen Stack, die entwickelten Tools zur Blumensuche und die Erkenntnisse des Autors über die Effektivität von LLMs für strukturierte Handelsabläufe.

28
ARTICLEDEV.to AI·vor 22T

The Insight-Free Property of Vendor RAGs — A Feature, Not a Bug

Der Autor nutzte den offiziellen RAG-basierten KI-Assistenten von Streamlit und Snowflake, um einen technischen Entwurf zu überprüfen, und fand die Antworten höflich, aber ohne tiefere Einsichten. Der Assistent formulierte lediglich bestehende Punkte um und fügte grundlegende Code-Snippets hinzu, was den Autor zu der Erkenntnis brachte, dass diese „einsichtslose“ Eigenschaft möglicherweise ein beabsichtigtes Merkmal und kein Fehler ist.

28
ARTICLEDEV.to AI·4/19/2026

The $6.7 Billion Blind Spot: Why AI Hallucination Is Now a C-Suite Risk Crisis

KI-Halluzinationen, bei denen Modelle mit vollem Vertrauen falsche Informationen generieren, stellen ein Milliardenrisiko für Unternehmen dar, einschließlich regulatorischer Strafen und Reputationsschäden. Diese inhärente Eigenschaft von LLMs, die Token vorhersagen anstatt zu argumentieren, ist eine bedeutende Risikokrise für die Führungsebene.

28
RESEARCHarXiv CS.CL·4/20/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Dieses Papier analysiert das Interpretationsverhalten von LLMs für die automatisierte Code-Compliance mittels perturbationsbasierter Attributionsanalyse, wobei verschiedene Fine-Tuning-Strategien und Modellgrößen verglichen werden. Die Ergebnisse zeigen, dass vollständiges Fine-Tuning fokussiertere Attributionsmuster erzeugt und größere Modelle spezifische Textelemente priorisieren.

28
RESEARCHarXiv CS.AI·5/4/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Diese Arbeit stellt AgentFloor vor, einen deterministischen 30-Aufgaben-Benchmark, der als sechs-stufige Fähigkeitsleiter organisiert ist, um die Werkzeugnutzungsfähigkeiten von KI-Modellen zu bewerten. Die Ergebnisse zeigen, dass kleine und mittelgroße Open-Weight-Modelle bereits für einen Großteil der kurzfristigen, strukturierten Werkzeugnutzungsaufgaben in realen Agenten-Pipelines ausreichen.

28
RESEARCHarXiv CS.AI·4/9/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

28
RESEARCHarXiv CS.CL·4/15/2026

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Diese Forschung untersucht die Fähigkeit von LLMs, abstrakte Bedeutungen zu erfassen, und zeigt, dass Modelle wie GPT-4o in Zero-Shot-, One-Shot- und Few-Shot-Szenarien Schwierigkeiten haben, während feinabgestimmte Modelle wie BERT und RoBERTa besser abschneiden. Sie schlägt einen bidirektionalen Aufmerksamkeitsklassifikator vor, der die Genauigkeit feinabgestimmter Modelle bei der Interpretation abstrakter Konzepte erheblich verbessert.

28
RESEARCHarXiv CS.AI·5/9/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Dieses Positionspapier argumentiert, dass Schmeichelei in LLMs ein Grenzversagen zwischen sozialer Ausrichtung und epistemischer Integrität darstellt. Es schlägt vor, Schmeichelei nicht nur als Zustimmung, sondern als Ausrichtungsverhalten zu verstehen, das unabhängiges epistemisches Urteilsvermögen verdrängt, und skizziert einen Drei-Bedingungen-Rahmen zur Definition.

28
RESEARCHarXiv CS.CL·4/23/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Diese Studie stellt ein Framework zur Quantifizierung der Fehlkalibrierung zwischen rhetorischer Intensität und epistemischer Fundierung in großen Sprachmodellen (LLMs) vor. Durch die Anwendung einer Taxonomie epistemisch-rhetorischer Marker auf argumentative Texte identifiziert sie eine konsistente LLM-epistemische Signatur, die sich durch den übermäßigen Gebrauch bestimmter rhetorischer Mittel und mehr performierte Zögern auszeichnet als bei menschlichen Autoren.

28
RESEARCHarXiv CS.AI·5/7/2026

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Diese Forschungsarbeit argumentiert, dass der Engpass im temporalen Denken großer Sprachmodelle nicht in der logischen Deduktion, sondern in der unstrukturierten Text-zu-Ereignis-Darstellung liegt. Sie stellt ein neuro-symbolisches Frage-Antwort-Framework vor, das ein probabilistisches Inkonsistenzsignal (PIS) verwendet, um die semantische Extraktion vom symbolischen Denken zu entkoppeln.

28
RESEARCHarXiv CS.CL·vor 20T

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Diese Forschung untersucht, wie verschiedene niedrigbitige Quantisierungsstufen die Leistung von LLaMA-3.1 in der qualitativen Analyse beeinflussen, wobei festgestellt wird, dass Modelle mit geringer Bitrate oft Halluzinationen erzeugen. Es wird eine quantisierungsbewusste Mehrfach-Prompt-Verifizierungsmethode vorgeschlagen, um die Genauigkeit durch systematische Reduzierung von Halluzinationen und Filterung unzuverlässiger Inhalte zu verbessern.

28
ARTICLEDEV.to AI·4/18/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Dieser Artikel warnt vor dem Einsatz generativer KI wie ChatGPT in der Kinderfürsorge, da deren probabilistische Natur und Tendenz zu Halluzinationen sie für kritische Entscheidungen ungeeignet machen. Es wird betont, dass „ausreichend gute“ Automatisierung inakzeptabel ist, wenn die Zukunft eines Kindes auf dem Spiel steht, da dies die Erfindung falscher Risikofaktoren riskiert.

28
RESEARCHarXiv CS.CL·vor 28T

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Diese Arbeit stellt ClinicalBench vor, einen 400-Fragen-Benchmark zur Bewertung der aussagebewussten Informationsbeschaffung für klinische QA auf MIMIC-IV unter Verwendung echter EHR-Notizen. Sie beschreibt auch EpiKG, ein Patientengraph-System, das die Retrievalleistung durch Berücksichtigung von Negation und Zeitlichkeit verbessert und signifikante Leistungssteigerungen bei klinischen LLMs zeigt.

28