LLMs

723 items

RESEARCHarXiv CS.CL·4/22/2026

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

Diese empirische Studie untersucht die Jailbreak-Erkennung in großen Sprachmodellen und zeigt, dass die Bewertung einer einzelnen Ausgabe die Anfälligkeit systematisch unterschätzt. Eine Erhöhung der Anzahl der gesampelten Generationen, insbesondere von einer zu moderater Abtastung, verbessert die Erkennung schädlichen Verhaltens erheblich.

LLMs security AI safety

RESEARCHarXiv CS.AI·4/22/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Dieses Papier stellt ein neuro-symbolisches Framework vor, um naturwissenschaftliche Argumentationsprobleme in ausführbares Narsese zu übersetzen, basierend auf Prädikatenlogik. Es präsentiert NARS-Reasoning-v0.1, einen neuen Benchmark mit Argumentationsproblemen, deren formalen Darstellungen und Wahrheitslabels zur Bewertung von Argumentationsfähigkeiten.

LLMs Reasoning benchmarks Neuro-symbolic AI

RESEARCHarXiv CS.AI·5/6/2026

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

Dieses Papier stellt einen Prototyp eines Multi-Agenten-Systems (MAS) für die Hydrodynamik vor, der die Einschränkungen von Single-Agent-LLM-Workflows adressiert. Spezialisierte Agenten werden über einen Layer Execution Graph (LEG) koordiniert, um die Zuverlässigkeit und das Kontextmanagement bei wissenschaftlichen Aufgaben zu verbessern.

LLMs Hydrodynamics Autonomous Reasoning Scientific Workflows

RESEARCHarXiv CS.AI·vor 27T

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Dieses Papier stellt CLIPR vor, ein Framework, das Großen Sprachmodellen (LLMs) ermöglicht, menschlich ausgerichtete Entscheidungen zu treffen, indem es latente Benutzerpräferenzen aus begrenzten Interaktionen ableitet. Es befasst sich mit den Schwierigkeiten von LLMs, menschlich ausgerichtete Lösungen zu produzieren, und den Einschränkungen bestehender Ansätze bei der Verallgemeinerung von Präferenzen.

user preferences LLMs Decision-making learning

RESEARCHarXiv CS.AI·vor 21T

Evaluating the Utility of Personal Health Records in Personalized Health AI

Diese Forschung bewertet die Fähigkeit von Gemini 3.0 Flash, Benutzer-Gesundheitsanfragen unter Verwendung von Personal Health Records (PHRs) als Kontext zu beantworten. Sie analysiert die generierten Antworten mit und ohne PHR-Daten für verschiedene Anfragetypen, um den Nutzen von PHRs in der personalisierten Gesundheits-KI zu bewerten.

LLMs Patient Empowerment AI in healthcare Gemini

RESEARCHarXiv CS.LG·5/5/2026

Agentopic: A Generative AI Agent Workflow for Explainable Topic Modeling

Agentopic ist ein neuartiger agentenbasierter Workflow für erklärbare Themenmodellierung, der die Denkfähigkeiten großer Sprachmodelle (LLMs) nutzt. Er verbessert die Transparenz, indem er es ermöglicht, die Argumentation hinter Themenzuweisungen nachzuvollziehen, und erreicht einen F1-Score von 0,95, vergleichbar mit GPT-4.1.

LLMs Topic Modeling Explainable AI AI agents

RESEARCHarXiv CS.CL·vor 21T

Prompting language influences diagnostic reasoning and accuracy of large language models

Diese Forschung bewertete den Einfluss der Prompt-Sprache auf die diagnostische Argumentation und Genauigkeit großer Sprachmodelle (LLMs) im klinischen Umfeld. Vier von fünf Modellen zeigten eine bessere Leistung auf Englisch, was die Unsicherheit hinsichtlich der Zuverlässigkeit von LLMs in anderen Sprachen hervorhebt.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy

RESEARCHarXiv CS.LG·vor 21T

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA schlägt eine neue Methode zur Feinabstimmung von Mixture-of-Experts (MoE)-Modellen vor, indem Low-Rank Adaptation (LoRA)-Module nur an den am häufigsten aktivierten Experten jeder Schicht angebracht werden. Diese Technik reduziert die trainierbaren Parameter erheblich und verbessert die Leistung, was auf eine strukturierte Regularisierung zurückzuführen ist, die die vortrainierte Expertenspezialisierung bewahrt.

LLMs MoE AI fine-tuning

ARTICLEDEV.to AI·4/16/2026

Claude Workflows & Opus 4.7 Drive AI Code Generation; Python Observability Boosts Deployment

Diese Woche werden praktische Strategien zur KI-Codegenerierung mit Claudes neuesten Opus 4.7-Funktionen vorgestellt, die eine verbesserte Leistung versprechen. Zudem zielt ein wichtiger Python-Vorschlag darauf ab, die Observability auf Systemebene zu verbessern, was entscheidend für robuste KI-Framework-Implementierungen und die Nutzung fortgeschrittener Prompt-Engineering-Techniken ist.

LLMs prompt-engineering AI Workflows Python

RESEARCHarXiv CS.CL·vor 28T

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Diese Forschung bewertet systematisch die Beziehung zwischen differenzieller Privatsphäre (DP) und sozialer Voreingenommenheit in großen Sprachmodellen (LLMs). Sie vergleicht ein DP-trainiertes LLM mit Nicht-DP-Baselines und stellt fest, dass DP die Voreingenommenheit bei Satzbewertungsaufgaben reduziert, dies jedoch nicht für alle Aufgaben gilt, und zeigt eine Diskrepanz zwischen Logit-Level- und Output-Level-Voreingenommenheit auf.

LLMs security AI ethics Bias

RESEARCHarXiv CS.CL·vor 14T

SPEAR: Code-Augmented Agentic Prompt Optimization

SPEAR stellt einen agentischen Freiform-Optimierer für automatisches Prompt Engineering vor, der eine Python-Sandbox für Fehleranalyse und autonome Verbesserung nutzt. Er verwendet Werkzeuge wie Evaluierung, Codeausführung und automatische Rücksetzung, um Prompts für LLM-Aufgaben zu optimieren.

Optimization LLMs prompt-engineering Code-Augmentation

ARTICLEDEV.to AI·4/16/2026

Ai Hallucination Sanctions Surge How The Oregon Vineyard Ruling Walmart S Shortcut And California Ba

Sanktionen für KI-Halluzinationen wurden im April 2026 zu einem ernsten Thema in Vorstandssitzungen, angetrieben durch neue staatliche Datenschutzgesetze mit KI-Transparenzregeln und einem Rahmen des Weißen Hauses, der Bereitsteller zur Rechenschaft zieht. Unternehmen müssen nun Halluzinationen verstehen und mindern, wobei spezifische Urteile die rechtlichen und finanziellen Risiken unbestätigter LLM-Ausgaben hervorheben.

Regulatory Compliance AI hallucinations LLMs legal responsibility

ARTICLEDEV.to AI·vor 11T

Why I'm building Hyphae: provenance over prediction (and the 3-line baseline that tied it)

Der Autor begann mit dem Aufbau von Hyphae, um ein kognitives Substrat ohne große Sprachmodelle zu schaffen, doch eine einfache Basislösung erreichte die gleiche Leistung, was ein kritisches Problem aufzeigte. Das Projekt konzentriert sich nun darauf, die Provenienz in KI-generierten Antworten zu gewährleisten, was für die Auditierbarkeit unerlässlich ist.

LLMs Auditability provenance AI

ARTICLEDEV.to AI·vor 26T

We Built a Compound AI System Instead of an Agent. It Costs $200/month and 100k People Use It.

Dieser Artikel beleuchtet die Ineffizienz autonomer KI-Agenten und nennt hohe Fehlerraten und Kosten. Er stellt "Compound AI Systems" als erfolgreiche Alternative vor, bei der traditioneller Code LLM-Aufrufe orchestriert.

AI architecture LLMs Compound AI System AI implementation

ARTICLEDEV.to AI·4/26/2026

Building a 21-Layer Memory Stack for an AI That Forgets Every 5 Minutes

Der Artikel befasst sich mit dem grundlegenden architektonischen Problem, dass Large Language Models (LLMs) in autonomen KI-Agenten alle paar Stunden den Kontext vergessen. Meridian, eine autonome KI, beschreibt, wie sie dieses Problem durch den Bau eines 21-Schichten-Speicherstacks gelöst hat, um den kontinuierlichen Betrieb sicherzustellen.

AI architecture LLMs Autonomous AI AI agents

ARTICLETwo Minute Papers (YouTube)·vor 6T

Claude Opus 4.8: Lying Machine No More?

Dieser Artikel befasst sich mit Claude Opus 4.8 und hinterfragt, ob seine Fähigkeiten verbessert wurden, um irreführende Informationen zu vermeiden. Er analysiert die Leistung des Modells hinsichtlich Zuverlässigkeit und Genauigkeit.

AI models LLMs AI reliability AI performance

ARTICLEDEV.to AI·vor 11T

Why Most RAG Pipelines Fail in Production

Dieser Artikel untersucht, warum die meisten RAG-Pipelines (Retrieval-Augmented Generation) in der Produktion scheitern, indem er die Einfachheit von Demos mit der Komplexität und Unordnung realer Datensätze vergleicht. Er beleuchtet die Herausforderungen der KI-Systemtechnik, insbesondere bei der Datenaufnahme, um RAG auf Produktionsumgebungen zu skalieren.

data ingestion LLMs production RAG

ARTICLEDEV.to AI·5/4/2026

Cut Your AI Agent Token Costs by 75% With One Skill Plugin

Ein Plugin namens Caveman kann die Token-Kosten von KI-Agenten um 75% senken, indem es redundante Kommunikation entfernt und den Kontextraum optimiert. Es bringt Agenten bei, effiziente Kommunikatoren zu sein und sich auf wesentliche Informationen für Entwickler zu konzentrieren.

LLMs token efficiency SKILL.md Plugin cost optimization

ARTICLEfreeCodeCamp (YouTube)·vor 18T

Why understanding key ML concepts really helps you use LLMs more effectively

Dieser Inhalt untersucht, warum ein solides Verständnis der wichtigsten Machine-Learning-Konzepte entscheidend ist, um Large Language Models effektiver einzusetzen. Er betont, wie grundlegendes ML-Wissen die praktische Anwendung und das Verständnis von LLMs verbessert.

LLMs learning machine learning AI

Why understanding key ML concepts really helps you use LLMs more effectively

ARTICLEDEV.to AI·vor 25T

Origami - a workspace-oriented terminal

Der Autor stellt Origami vor, ein mit LLMs entwickeltes Terminal, und teilt wertvolle Erkenntnisse aus dessen Entwicklung. Er betont, dass KI-Programmierung keine einfache Lösung ist und hebt Softwarearchitektur als die wichtigste Fähigkeit für eine effektive KI-Integration hervor.

LLMs Software Architecture developer tools AI development