LLMs

722 items

ARTICLEDEV.to AI·4/18/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Dieser Artikel warnt vor dem Einsatz generativer KI wie ChatGPT in der Kinderfürsorge, da deren probabilistische Natur und Tendenz zu Halluzinationen sie für kritische Entscheidungen ungeeignet machen. Es wird betont, dass „ausreichend gute“ Automatisierung inakzeptabel ist, wenn die Zukunft eines Kindes auf dem Spiel steht, da dies die Erfindung falscher Risikofaktoren riskiert.

Child welfare LLMs public services AI risks

RESEARCHarXiv CS.CL·vor 28T

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Diese Arbeit stellt ClinicalBench vor, einen 400-Fragen-Benchmark zur Bewertung der aussagebewussten Informationsbeschaffung für klinische QA auf MIMIC-IV unter Verwendung echter EHR-Notizen. Sie beschreibt auch EpiKG, ein Patientengraph-System, das die Retrievalleistung durch Berücksichtigung von Negation und Zeitlichkeit verbessert und signifikante Leistungssteigerungen bei klinischen LLMs zeigt.

LLMs benchmarking clinical QA medical AI

RESEARCHarXiv CS.CL·vor 28T

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

Model Compression Knowledge Distillation LLMs reinforcement learning

ARTICLEDEV.to AI·5/5/2026

Tool-use API design for LLMs: 5 patterns that prevent agent loops and silent failures

Dieser Artikel behandelt, wie LLM-Agenten aufgrund unzureichenden Tool-API-Designs in Rekursionsschleifen geraten und hohe Kosten durch stille Fehler verursachen können. Er stellt fünf Muster vor, um diese Probleme in Produktions-LLM-Systemen zu verhindern, wobei der Fokus auf dem Tool-Design liegt.

LLMs Agent Loops software engineering API design

RESEARCHarXiv CS.CL·vor 7T

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Eine systematische Überprüfung der Validierungsaufteilungen von extsf{FOLIO} und extsf{MALLS} zeigte hohe Raten inkorrekter FOL-Formalisierungen und mehrdeutiger NL-Sätze, die die Bewertung von KI-Modellen verzerren. Die Autoren entwickelten und veröffentlichten korrigierte Ground Truths für diese Datensätze und zeigten, wie Annotationsfehler die Bewertung modernster LLMs beeinflussen.

LLMs Neurosymbolic AI Natural Language Processing benchmarks

RESEARCHarXiv CS.AI·vor 7T

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Diese Forschung untersucht die Verwendung visueller Graphenstrukturen zur Organisation des Denkprozesses in großen Sprachmodellen (LLMs), inspiriert von menschlichen Mindmaps. Experimente bei mehrstufigen Frage-Antwort-Aufgaben zeigen, dass visuelle Graphenführung die Effizienz des Denkprozesses und die Antwortqualität im Vergleich zu textuellen Darstellungen erheblich verbessert.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·vor 7T

Greener Than Humans? Environmental Attitudes in Large Language Models

Dieses Papier entwickelt einen Benchmark zur Bewertung umweltbezogener Einstellungen in Großen Sprachmodellen (LLMs) und vergleicht ihre Antworten mit menschlichen Umfragedaten. Die Forschung zeigt, dass viele LLMs stärker mit umweltfreundlicheren Einstellungen übereinstimmen als der durchschnittliche Umfrageteilnehmer.

LLMs benchmarking sustainability environmental attitudes

RESEARCHDEV.to AI·5/7/2026

The 55.6% problem: why frontier LLMs fail at embedded code

Frontier-LLMs zeigen laut dem neuen EmbedBench-Benchmark eine überraschend schlechte Leistung (ca. 50-55 %) bei eingebetteten Code-Aufgaben. Dies verdeutlicht eine erhebliche Lücke im Vergleich zu ihrer Leistung in anderen Entwicklungsbereichen, obwohl nur wenige Hardware-Plattformen getestet wurden.

LLMs AI limitations firmware benchmarking

ARTICLEDEV.to AI·vor 11T

The NSA Said MCP Is a National Security Problem. Here's How to Actually Fix It.

Die NSA hat das Model Context Protocol (MCP) als nationales Sicherheitsproblem eingestuft, da dessen Tool-Calling-Architektur angreifbare Oberflächen in KI-gesteuerten Automatisierungspipelines schafft. Dieser Artikel behandelt, wie die NSA-Richtlinien zur Behebung dieser Sicherheitsrisiken operationalisiert werden können.

LLMs cybersecurity security AI safety

RESEARCHDEV.to AI·vor 13T

I gave ADHD to Claude.. its thinking 2x better now

Der Autor schlägt ein neues KI-Denkmuster vor, "ADHD - Parallel Divergent Ideation for Coding Agents", inspiriert vom divergenten Denken. Es wird vorgeschlagen, die lineare "Chain-of-thoughts" durch ein "Tree-of-thoughts" zu ersetzen, damit KI-Modelle unterschiedliche Ideen verbinden und kreativer denken können.

LLMs cognitive AI Divergent thinking AI

ARTICLEDEV.to AI·vor 5T

Context Engineering: The Skill Replacing Prompt Engineering in 2026

Kontext-Engineering ist die Disziplin des systematischen Entwurfs der Informationsumgebung, die einen Prompt in LLM-Systemen umgibt. Diese Fähigkeit, die voraussichtlich bis 2026 das Prompt-Engineering ersetzen wird, konzentriert sich darauf, was das Modell wissen muss, um gut zu funktionieren, anstatt nur darauf, was es tun soll.

LLMs prompt-engineering Context Engineering learning

DOCDEV.to AI·4/22/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Retrieval-Augmented Generation (RAG)-Systeme werden als revolutionärer Ansatz für Unternehmen vorgestellt, um intelligente Wissenssysteme aufzubauen, indem sie LLMs mit domänenspezifischem Wissen kombinieren. Dieser Leitfaden, basierend auf der Erfahrung von Groovy Web mit Fortune-500-Unternehmen, deckt den umfassenden Prozess des Aufbaus und der Bereitstellung produktionsreifer RAG-Systeme ab, von der Architektur bis zum Monitoring.

LLMs RAG knowledge management Enterprise AI

RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

LLMs reasoning tasks reinforcement learning PPO

RESEARCHarXiv CS.CL·4/10/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

ARTICLEDEV.to AI·4/11/2026

The Future of AI Integration: Model Context Protocol (MCP) Connectors

Das Model Context Protocol (MCP) von Anthropic ist ein neuer offener Standard, der das „N×M“-Problem der Datenintegration für LLMs löst. Es standardisiert die Interaktion zwischen KI-Anwendungen und externen Diensten und bietet eine transformative Lösung für Ökosysteme autonomer Agenten.

AI integration LLMs MCP Connectors Model Context Protocol

ARTICLEDEV.to AI·vor 20T

One Tool That Cuts Token Costs 40-80% for Claude Code, Codex, opencode, and openclaw

Dieser Artikel identifiziert vier strukturelle Muster, die die Token-Kosten für KI-Modelle wie Claude Code und Codex erheblich erhöhen, und betont, dass die reine Prompt-Optimierung nicht ausreicht. Probleme umfassen Screenshots in voller Auflösung, wiederholtes Lesen von Dateien, Kontextverlust bei der Kompaktierung und unoptimierte Bash-Ausgaben, die zusammen die API-Kosten in die Höhe treiben.

token management LLMs Cost Optimization AI

DOCDEV.to AI·4/26/2026

How to Deploy Llama 3.2 70B with Ollama on a $18/Month DigitalOcean Droplet: Memory-Optimized Self-Hosting

Dieser Inhalt führt Benutzer an, wie Llama 3.2 70B mit Ollama auf einem 18 $/Monat teuren DigitalOcean-Droplet bereitgestellt wird, was erhebliche Kosteneinsparungen im Vergleich zur API-Nutzung demonstriert. Er zeigt, wie eine produktionsreife LLM-Inferenz im großen Maßstab mit vergleichbarer Qualität zu kommerziellen APIs erreicht werden kann, wodurch fortgeschrittene KI für ernsthafte Entwickler zugänglich wird.

LLMs deployment self-hosting Cost Optimization

ARTICLEDEV.to AI·4/12/2026

Upwork for AI Agents

Der Inhalt thematisiert die Veralterung traditioneller Freelance-Plattformen durch den Aufstieg autonomer KI-Agenten. Es wird der Agent Labor Market (ALM) vorgestellt, wo Vertrauen auf technischen Manifesten und verifizierten Agentenfähigkeiten basiert, wie es Plattformen wie UpAgents vormachen.

future-of-work LLMs Agentic Labor Market Freelance Platforms

ARTICLEDEV.to AI·5/2/2026

Why AI Makes Software Fundamentals More Expensive Than Ever

Der Artikel widerspricht der Vorstellung, dass LLMs technische Fähigkeiten obsolet machen, und betont, dass Software-Grundlagen wichtiger denn je sind. Er warnt davor, KI-generierten Code als "billig" zu betrachten, da dies zu "Software-Entropie" und "Voodoo Coding" führt und die Qualität schnell verschlechtert.

future-of-work LLMs developer skills code quality

ARTICLEDEV.to AI·4/18/2026

Multi-Agent Architecture: Specialist Routing in an Autonomous Task System

Dieser Artikel beschreibt eine spezialisierte Routing-Architektur für autonome Agentensysteme und argumentiert gegen die Ineffizienz und Kosten eines einzigen mächtigen Generalistenmodells für alle Aufgaben. Durch die Klassifizierung von Anfragen und den Einsatz spezialisierter Agenten optimiert dieser Ansatz, basierend auf dem Produktiveinsatz, die Kosten und liefert sauberere, kontextrelevantere Ergebnisse.

AI architecture LLMs Cost Optimization multi-agent systems