large language models

262 items

RESEARCHarXiv CS.LG·4/16/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

reinforcement learning Multi-objective Optimization AI alignment machine learning

RESEARCHarXiv CS.AI·vor 5T

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Dieser Kommentar stellt PEEL vor, ein Arbeitsgerüst, das deterministisches Distant Reading mit LLM-Interpretation kombiniert, basierend auf Peirce'scher Semiotik und abduktivem Denken. Angewendet auf KI-generierte Zusammenfassungen, enthüllt PEEL systematische Verzerrungen, die ohne nicht-KI-Messung unsichtbar wären, was darauf hindeutet, dass deterministische Instrumente KI-Tools begleiten müssen, um Genauigkeit und epistemische Autorität zu gewährleisten.

Research methodology AI in research Epistemic accountability large language models

RESEARCHarXiv CS.AI·4/21/2026

Agentic Risk-Aware Set-Based Engineering Design

Dieses Papier stellt ein LLM-geführtes Multi-Agenten-Framework für das frühe Ingenieurdesign vor, das einen „Human-in-the-loop“-Ansatz und formales Risikomanagement integriert. Es nutzt spezialisierte Agenten, um Designkandidaten zu erkunden und zu selektieren, demonstriert am aerodynamischen Tragflächendesign.

Engineering Design multi-agent systems large language models risk management

ARTICLEDEV.to AI·vor 3T

<think>

Dieser Inhalt vergleicht die Kosten verschiedener KI-Modelle und hebt günstigere Alternativen zu GPT-4o hervor. Es werden erhebliche Einsparungen durch die Verwendung von Modellen wie GPT-4o-mini, DeepSeek V4 Flash und Qwen3-32B untersucht, die bis zu 40-mal kostengünstiger sein können.

AI models GPT-4o large language models Cost Efficiency

ARTICLEDEV.to AI·vor 3T

<think>

Dieser Artikel beschreibt die Entdeckung eines Indie-Hackers bezüglich erheblicher Kosteneinsparungen durch die Nutzung alternativer KI-Modelle über die Global API, wobei deren Preise mit GPT-4o verglichen werden. Es wird gezeigt, wie Entwickler die Kosten für die Inferenz großer Sprachmodelle durch eine breite Palette verfügbarer Optionen senken können.

AI models Cost Optimization large language models developer tools

ARTICLEDEV.to AI·4/13/2026

Everyone thinks ChatGPT is an AI agent. It's not.

Dieser Artikel beleuchtet den entscheidenden Unterschied zwischen einem Chatbot mit Werkzeugen und einem echten KI-Agenten und argumentiert, dass die Verwechslung beider der Grund für das Scheitern vieler „KI-Agent“-Startups ist. Er untersucht, was ein Sprachmodell wirklich zu einem Agenten macht, der fähig ist, echte Handlungen auszuführen und diese autonom miteinander zu verketten.

AI architecture chatbots large language models AI development

RESEARCHDEV.to AI·4/18/2026

ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using LargeLanguage Models

ChatCAD ist ein interaktives computergestütztes Diagnosesystem, das große Sprachmodelle zur Analyse medizinischer Bilder nutzt. Es zielt darauf ab, die Genauigkeit und Effizienz medizinischer Diagnosen durch künstliche Intelligenz zu verbessern.

computer-aided diagnosis Healthcare large language models Medical Imaging

RESEARCHarXiv CS.CL·4/14/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Dieses Papier stellt „Insight Anticipation“ vor, eine neuartige Aufgabe, bei der Sprachmodelle die Kernaussage eines zukünftigen wissenschaftlichen Artikels aus seinen grundlegenden Vorgängern vorhersagen. Zur Evaluierung dieser Fähigkeit entwickelten die Autoren GiantsBench, einen Benchmark mit 17.000 Beispielen, und stellen GIANTS-4B vor, ein mit Reinforcement Learning trainiertes Sprachmodell.

Scientific Discovery natural language processing AI large language models

ARTICLEDEV.to AI·vor 5T

Context Window Management: Tactics That Survive Real Sessions

Große Sprachmodelle haben oft ein wesentlich kleineres praktisches Kontextfenster als ihr beworbenes nominelles Limit, was auf Overhead und Aufmerksamkeitsverfall zurückzuführen ist. Diese Diskrepanz beeinflusst das Prompt-Design und führt zu Qualitätseinbußen und Trunkierungen, lange bevor die harte Token-Grenze erreicht ist.

prompt engineering Technical limitations AI performance large language models

RESEARCHarXiv CS.CL·vor 5T

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Diese Studie untersucht die übergreifende Prompt-Generalisierung bei der Erkennung von KI-generierten Falschmeldungen mithilfe interpretierbarer linguistischer Merkmale wie lexikalischer Vielfalt und Lesbarkeit. Die Ergebnisse zeigen eine durchweg hohe Detektionsleistung, selbst wenn die Modelle mit unterschiedlichen Prompt-Strategien trainiert und getestet werden.

Generalization AI detection fake news large language models

RESEARCHarXiv CS.AI·vor 13T

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

Dieses Papier schlägt POLAR vor, ein multimodales, speichererweitertes Framework für personalisierte, verkörperte Agenten über langfristige Benutzerinteraktionen. POLAR organisiert frühere Interaktionen in einem multimodalen Wissensgraphen, der semantisches und episodisches Gedächtnis erfasst, um die Ausführung verkörperter Aufgaben zu leiten.

personalization multimodal AI memory large language models

ARTICLEDEV.to AI·4/11/2026

Why Your pip Install Output Doesn't Belong in Claude's Context

Este artigo discute como o output detalhado do comando `pip install` é desnecessário e prejudicial para o contexto de modelos de IA como o Claude, que precisam apenas saber se a instalação de pacotes Python foi bem-sucedida ou falhou. Detalhes verbosos como barras de progresso e logs de compilação são considerados ruído que não auxilia a IA na depuração.

prompt engineering AI Context pip Python

RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHarXiv CS.LG·4/16/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHarXiv CS.LG·5/7/2026

Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

Dieses Papier stellt Structured Progressive Knowledge Activation (SPARK) vor, um die Herausforderung der Integration architektonischen Wissens in die LLM-gesteuerte neuronale Architektursuche (NAS) zu bewältigen. SPARK mindert "funktionale Verflechtung" durch faktorkonditioniertes Bearbeiten, was zu zielgerichteteren und zuverlässigeren Architekturmodifikationen führt.

Neural Architecture Search machine learning Knowledge Integration large language models

RESEARCHarXiv CS.CL·4/22/2026

Mango: Multi-Agent Web Navigation via Global-View Optimization

Mango ist eine Multi-Agenten-Web-Navigationsmethode, die die Erkundung komplexer Websites durch eine globale Ansicht optimiert. Sie bestimmt dynamisch optimale Startpunkte und weist das Navigationsbudget adaptiv zu, wodurch eine Erfolgsrate von 63,6% mit GPT-5-mini erzielt wird.

Optimization web navigation large language models AI agents

RESEARCHarXiv CS.LG·4/22/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Diese Arbeit befasst sich mit der Herausforderung fehlender Modalitäten in multimodalen klinischen Daten für die Diagnose, indem sie dies als autoregressive Sequenzmodellierungsaufgabe neu formuliert. Sie nutzt kausale Decoder von LLMs und ein fehlendes-sensitives kontrastives Vor-Training, um Baselines bei Benchmarks wie MIMIC-IV und eICU zu übertreffen.

multimodal AI machine learning large language models healthcare AI

RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.CL·4/13/2026

Drift and selection in LLM text ecosystems

Diese Arbeit stellt einen mathematischen Rahmen zur Analyse des rekursiven Prozesses vor, bei dem KI-generierter Text wieder in die öffentliche Aufzeichnung eingeht und diese formt, aus der LLMs lernen. Es unterscheidet zwischen "Drift", die seltene Formen durch ungefilterte Wiederverwendung entfernt, und "Selektion", die Inhalte nach Kriterien wie Qualität filtert, und zeigt, dass normative Selektion tiefere linguistische Strukturen bewahrt.

Text Ecosystems data drift model collapse large language models

RESEARCHarXiv CS.LG·vor 19T

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite ist eine neuartige Prompt-Level-Sonde, die entwickelt wurde, um zu interpretieren, wie sich Sicherheitsnachweise in den Schichten großer Sprachmodelle entwickeln. Sie analysiert die Geometrie der Layer-weisen Margen mithilfe verschiedener Ausleseverfahren, um die Grenzbildung zu verstehen und verbessert die Sicherheitserkennung gegenüber Single-Layer-Sonden.

deep learning Probing interpretability large language models