LLMs

720 items

ARTICLEDEV.to AI·4/17/2026

I Built a 7-Agent Prompt Framework, Then Used It to Debug Its Own Output

Der Autor entwickelte ein 7-Agenten-Prompt-Framework namens C.E.H., das auf lokalen LLMs läuft und erfolgreich ein komplexes RAG-System aufbaute. Angesichts von 14 Fehlern im generierten Code nutzte der Autor das C.E.H.-Framework selbst auf einzigartige Weise, um dessen eigene Ausgabe zu debuggen und zu beheben.

LLMs code debugging RAG multi-agent systems

RESEARCHarXiv CS.AI·4/7/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

LLMs ChatGPT Instrumentation Control large language models

RESEARCHarXiv CS.CL·4/9/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

ARTICLEDEV.to AI·vor 10T

Beyond Static Prompts: How to Build Self-Improving AI Agents with Closed-Loop Skill Playbooks

Der Inhalt behandelt den Paradigmenwechsel von statischen Prompts zu autonomen, sich selbst verbessernden KI-Agenten-Systemen. Er beleuchtet die Herausforderungen beim Aufbau widerstandsfähiger KI-Agenten in Produktionsumgebungen und schlägt vor, 'Fähigkeiten' nicht als statischen Code, sondern als lebendige, eigenständige Elemente zu behandeln.

LLMs prompt-engineering Autonomous systems AI development

ARTICLEDEV.to AI·vor 23T

I Built an MCP Server for My Flower Shop. Nobody Asked Me To.

Dieser Artikel beschreibt die humorvolle „Überkonstruktion“ eines 60 Jahre alten Münchner Blumenladens durch den Bau eines MCP-Servers, der große Sprachmodelle wie Claude, Gemini und Mistral nutzt. Er beschreibt den technischen Stack, die entwickelten Tools zur Blumensuche und die Erkenntnisse des Autors über die Effektivität von LLMs für strukturierte Handelsabläufe.

open-source LLMs real-world application backend development

ARTICLEDEV.to AI·vor 22T

The Insight-Free Property of Vendor RAGs — A Feature, Not a Bug

Der Autor nutzte den offiziellen RAG-basierten KI-Assistenten von Streamlit und Snowflake, um einen technischen Entwurf zu überprüfen, und fand die Antworten höflich, aber ohne tiefere Einsichten. Der Assistent formulierte lediglich bestehende Punkte um und fügte grundlegende Code-Snippets hinzu, was den Autor zu der Erkenntnis brachte, dass diese „einsichtslose“ Eigenschaft möglicherweise ein beabsichtigtes Merkmal und kein Fehler ist.

LLMs Streamlit RAG AI Assistants

ARTICLEDEV.to AI·5/9/2026

Systematic Large Model Debugging Is the Missing Product Discipline

Fehler bei großen Modellen sind keine Bugs, sondern Designfehler, die in der Komplexität verborgen sind, und es fehlt eine systematische Debugging-Disziplin. Der Artikel schlägt Product Lifecycle Debugging for Models (PLDM) als entscheidenden Ansatz vor, um späte Fehler und Vertrauensverlust zu verhindern.

LLMs systematic approach product management Debugging

ARTICLEDEV.to AI·4/19/2026

The $6.7 Billion Blind Spot: Why AI Hallucination Is Now a C-Suite Risk Crisis

KI-Halluzinationen, bei denen Modelle mit vollem Vertrauen falsche Informationen generieren, stellen ein Milliardenrisiko für Unternehmen dar, einschließlich regulatorischer Strafen und Reputationsschäden. Diese inhärente Eigenschaft von LLMs, die Token vorhersagen anstatt zu argumentieren, ist eine bedeutende Risikokrise für die Führungsebene.

Regulatory Compliance LLMs AI hallucination risk management

RESEARCHarXiv CS.CL·4/20/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Dieses Papier analysiert das Interpretationsverhalten von LLMs für die automatisierte Code-Compliance mittels perturbationsbasierter Attributionsanalyse, wobei verschiedene Fine-Tuning-Strategien und Modellgrößen verglichen werden. Die Ergebnisse zeigen, dass vollständiges Fine-Tuning fokussiertere Attributionsmuster erzeugt und größere Modelle spezifische Textelemente priorisieren.

model interpretability LLMs Machine learning research fine-tuning

RESEARCHarXiv CS.AI·5/4/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Diese Arbeit stellt AgentFloor vor, einen deterministischen 30-Aufgaben-Benchmark, der als sechs-stufige Fähigkeitsleiter organisiert ist, um die Werkzeugnutzungsfähigkeiten von KI-Modellen zu bewerten. Die Ergebnisse zeigen, dass kleine und mittelgroße Open-Weight-Modelle bereits für einen Großteil der kurzfristigen, strukturierten Werkzeugnutzungsaufgaben in realen Agenten-Pipelines ausreichen.

Open-Weight Models LLMs benchmarking tool use

RESEARCHarXiv CS.AI·4/9/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

Transformer Representations hallucination detection LLMs machine learning

RESEARCHarXiv CS.CL·4/15/2026

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Diese Forschung untersucht die Fähigkeit von LLMs, abstrakte Bedeutungen zu erfassen, und zeigt, dass Modelle wie GPT-4o in Zero-Shot-, One-Shot- und Few-Shot-Szenarien Schwierigkeiten haben, während feinabgestimmte Modelle wie BERT und RoBERTa besser abschneiden. Sie schlägt einen bidirektionalen Aufmerksamkeitsklassifikator vor, der die Genauigkeit feinabgestimmter Modelle bei der Interpretation abstrakter Konzepte erheblich verbessert.

LLMs GPT-4o NLP abstract meaning comprehension

RESEARCHarXiv CS.CL·4/23/2026

Can We Locate and Prevent Stereotypes in LLMs?

Diese Studie untersucht, wo Stereotypen in LLMs wie GPT 2 Small und Llama 3.2 lokalisiert sind. Sie erforscht die Identifizierung einzelner neuronaler Aktivierungen und Attention Heads, um „Bias-Fingerabdrücke“ zu kartieren und erste Einblicke zur Minderung zu liefern.

neural networks LLMs bias detection Bias Mitigation

RESEARCHarXiv CS.AI·5/9/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Dieses Positionspapier argumentiert, dass Schmeichelei in LLMs ein Grenzversagen zwischen sozialer Ausrichtung und epistemischer Integrität darstellt. Es schlägt vor, Schmeichelei nicht nur als Zustimmung, sondern als Ausrichtungsverhalten zu verstehen, das unabhängiges epistemisches Urteilsvermögen verdrängt, und skizziert einen Drei-Bedingungen-Rahmen zur Definition.

LLMs AI behavior AI alignment epistemic integrity

RESEARCHarXiv CS.CL·4/23/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Diese Studie stellt ein Framework zur Quantifizierung der Fehlkalibrierung zwischen rhetorischer Intensität und epistemischer Fundierung in großen Sprachmodellen (LLMs) vor. Durch die Anwendung einer Taxonomie epistemisch-rhetorischer Marker auf argumentative Texte identifiziert sie eine konsistente LLM-epistemische Signatur, die sich durch den übermäßigen Gebrauch bestimmter rhetorischer Mittel und mehr performierte Zögern auszeichnet als bei menschlichen Autoren.

LLMs AI ethics AI evaluation

RESEARCHarXiv CS.CL·4/23/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 ist ein Framework, das LLMs durch einen iterativen Such-, Verfeinerungs- und Denkprozess, der mittels Reinforcement Learning trainiert wird, verbessert. Es löst RAG-Herausforderungen, indem es relevante Fakten aus abgerufenen Dokumenten destilliert, um Effizienz und Genauigkeit bei komplexen Multi-Hop-QA zu steigern.

multi-hop-qa LLMs reinforcement learning RAG

RESEARCHarXiv CS.AI·5/7/2026

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Diese Forschungsarbeit argumentiert, dass der Engpass im temporalen Denken großer Sprachmodelle nicht in der logischen Deduktion, sondern in der unstrukturierten Text-zu-Ereignis-Darstellung liegt. Sie stellt ein neuro-symbolisches Frage-Antwort-Framework vor, das ein probabilistisches Inkonsistenzsignal (PIS) verwendet, um die semantische Extraktion vom symbolischen Denken zu entkoppeln.

LLMs temporal reasoning Question Answering Neuro-symbolic AI

RESEARCHarXiv CS.CL·vor 20T

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Diese Forschung untersucht, wie verschiedene niedrigbitige Quantisierungsstufen die Leistung von LLaMA-3.1 in der qualitativen Analyse beeinflussen, wobei festgestellt wird, dass Modelle mit geringer Bitrate oft Halluzinationen erzeugen. Es wird eine quantisierungsbewusste Mehrfach-Prompt-Verifizierungsmethode vorgeschlagen, um die Genauigkeit durch systematische Reduzierung von Halluzinationen und Filterung unzuverlässiger Inhalte zu verbessern.

model performance Qualitative Analysis LLMs hallucinations

ARTICLEDEV.to AI·4/18/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Dieser Artikel warnt vor dem Einsatz generativer KI wie ChatGPT in der Kinderfürsorge, da deren probabilistische Natur und Tendenz zu Halluzinationen sie für kritische Entscheidungen ungeeignet machen. Es wird betont, dass „ausreichend gute“ Automatisierung inakzeptabel ist, wenn die Zukunft eines Kindes auf dem Spiel steht, da dies die Erfindung falscher Risikofaktoren riskiert.

Child welfare LLMs public services AI risks

RESEARCHarXiv CS.CL·vor 28T

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Diese Arbeit stellt ClinicalBench vor, einen 400-Fragen-Benchmark zur Bewertung der aussagebewussten Informationsbeschaffung für klinische QA auf MIMIC-IV unter Verwendung echter EHR-Notizen. Sie beschreibt auch EpiKG, ein Patientengraph-System, das die Retrievalleistung durch Berücksichtigung von Negation und Zeitlichkeit verbessert und signifikante Leistungssteigerungen bei klinischen LLMs zeigt.

LLMs benchmarking clinical QA medical AI