← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.LG·4/16/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

31
RESEARCHarXiv CS.AI·vor 5T

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Dieser Kommentar stellt PEEL vor, ein Arbeitsgerüst, das deterministisches Distant Reading mit LLM-Interpretation kombiniert, basierend auf Peirce'scher Semiotik und abduktivem Denken. Angewendet auf KI-generierte Zusammenfassungen, enthüllt PEEL systematische Verzerrungen, die ohne nicht-KI-Messung unsichtbar wären, was darauf hindeutet, dass deterministische Instrumente KI-Tools begleiten müssen, um Genauigkeit und epistemische Autorität zu gewährleisten.

31
ARTICLEDEV.to AI·vor 3T

<think>

Dieser Inhalt vergleicht die Kosten verschiedener KI-Modelle und hebt günstigere Alternativen zu GPT-4o hervor. Es werden erhebliche Einsparungen durch die Verwendung von Modellen wie GPT-4o-mini, DeepSeek V4 Flash und Qwen3-32B untersucht, die bis zu 40-mal kostengünstiger sein können.

30
ARTICLEDEV.to AI·vor 3T

<think>

Dieser Artikel beschreibt die Entdeckung eines Indie-Hackers bezüglich erheblicher Kosteneinsparungen durch die Nutzung alternativer KI-Modelle über die Global API, wobei deren Preise mit GPT-4o verglichen werden. Es wird gezeigt, wie Entwickler die Kosten für die Inferenz großer Sprachmodelle durch eine breite Palette verfügbarer Optionen senken können.

30
ARTICLEDEV.to AI·4/13/2026

Everyone thinks ChatGPT is an AI agent. It's not.

Dieser Artikel beleuchtet den entscheidenden Unterschied zwischen einem Chatbot mit Werkzeugen und einem echten KI-Agenten und argumentiert, dass die Verwechslung beider der Grund für das Scheitern vieler „KI-Agent“-Startups ist. Er untersucht, was ein Sprachmodell wirklich zu einem Agenten macht, der fähig ist, echte Handlungen auszuführen und diese autonom miteinander zu verketten.

30
RESEARCHarXiv CS.CL·4/14/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Dieses Papier stellt „Insight Anticipation“ vor, eine neuartige Aufgabe, bei der Sprachmodelle die Kernaussage eines zukünftigen wissenschaftlichen Artikels aus seinen grundlegenden Vorgängern vorhersagen. Zur Evaluierung dieser Fähigkeit entwickelten die Autoren GiantsBench, einen Benchmark mit 17.000 Beispielen, und stellen GIANTS-4B vor, ein mit Reinforcement Learning trainiertes Sprachmodell.

30
RESEARCHarXiv CS.CL·vor 5T

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Diese Studie untersucht die übergreifende Prompt-Generalisierung bei der Erkennung von KI-generierten Falschmeldungen mithilfe interpretierbarer linguistischer Merkmale wie lexikalischer Vielfalt und Lesbarkeit. Die Ergebnisse zeigen eine durchweg hohe Detektionsleistung, selbst wenn die Modelle mit unterschiedlichen Prompt-Strategien trainiert und getestet werden.

29
RESEARCHarXiv CS.AI·vor 13T

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

Dieses Papier schlägt POLAR vor, ein multimodales, speichererweitertes Framework für personalisierte, verkörperte Agenten über langfristige Benutzerinteraktionen. POLAR organisiert frühere Interaktionen in einem multimodalen Wissensgraphen, der semantisches und episodisches Gedächtnis erfasst, um die Ausführung verkörperter Aufgaben zu leiten.

29
ARTICLEDEV.to AI·4/11/2026

Why Your pip Install Output Doesn't Belong in Claude's Context

Este artigo discute como o output detalhado do comando `pip install` é desnecessário e prejudicial para o contexto de modelos de IA como o Claude, que precisam apenas saber se a instalação de pacotes Python foi bem-sucedida ou falhou. Detalhes verbosos como barras de progresso e logs de compilação são considerados ruído que não auxilia a IA na depuração.

29
RESEARCHarXiv CS.CL·4/20/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Diese Forschung stellt ein dateneffizientes Fine-Tuning-Framework vor, um Reasoning-Modellen beizubringen, effektiv Code-Switching für Denkaufgaben zu nutzen. Es identifiziert vorteilhafte Code-Switching-Verhaltensweisen durch die systematische Analyse diverser Reasoning-Spuren, statt dies als Fehler zu betrachten.

29
RESEARCHarXiv CS.LG·4/16/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.

29
RESEARCHarXiv CS.LG·5/7/2026

Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

Dieses Papier stellt Structured Progressive Knowledge Activation (SPARK) vor, um die Herausforderung der Integration architektonischen Wissens in die LLM-gesteuerte neuronale Architektursuche (NAS) zu bewältigen. SPARK mindert "funktionale Verflechtung" durch faktorkonditioniertes Bearbeiten, was zu zielgerichteteren und zuverlässigeren Architekturmodifikationen führt.

29
RESEARCHarXiv CS.LG·4/22/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Diese Arbeit befasst sich mit der Herausforderung fehlender Modalitäten in multimodalen klinischen Daten für die Diagnose, indem sie dies als autoregressive Sequenzmodellierungsaufgabe neu formuliert. Sie nutzt kausale Decoder von LLMs und ein fehlendes-sensitives kontrastives Vor-Training, um Baselines bei Benchmarks wie MIMIC-IV und eICU zu übertreffen.

29
RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

29
RESEARCHarXiv CS.CL·4/13/2026

Drift and selection in LLM text ecosystems

Diese Arbeit stellt einen mathematischen Rahmen zur Analyse des rekursiven Prozesses vor, bei dem KI-generierter Text wieder in die öffentliche Aufzeichnung eingeht und diese formt, aus der LLMs lernen. Es unterscheidet zwischen "Drift", die seltene Formen durch ungefilterte Wiederverwendung entfernt, und "Selektion", die Inhalte nach Kriterien wie Qualität filtert, und zeigt, dass normative Selektion tiefere linguistische Strukturen bewahrt.

29
RESEARCHarXiv CS.LG·vor 19T

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite ist eine neuartige Prompt-Level-Sonde, die entwickelt wurde, um zu interpretieren, wie sich Sicherheitsnachweise in den Schichten großer Sprachmodelle entwickeln. Sie analysiert die Geometrie der Layer-weisen Margen mithilfe verschiedener Ausleseverfahren, um die Grenzbildung zu verstehen und verbessert die Sicherheitserkennung gegenüber Single-Layer-Sonden.

29