LLMs

723 items

ARTICLEDEV.to AI·4/22/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness ist ein leichtgewichtiges Open-Source-Projekt, das KI-Agenten eine effiziente und kostengünstige Interaktion mit Browsern ermöglicht, indem es die Grenzen traditioneller Automatisierungstools wie Playwright oder Selenium überwindet. Dies wird durch eine direkte Brücke zum Chrome DevTools Protocol erreicht, die Agenten dazu ermutigt, ihre eigenen Hilfsfunktionen in Echtzeit zu erstellen und zu ändern.

open-source LLMs browser automation AI agents

DOCDEV.to AI·vor 22T

89. The Claude API: Building with Anthropic's Models

Dieser Beitrag untersucht die Claude-API von Anthropic, hebt deren Philosophie der kombinierten Leistungsfähigkeit und Sicherheit hervor und zeigt die Unterschiede zu OpenAI auf. Er bietet eine Anleitung von der Einrichtung bis zu den Produktionsmustern für die Entwicklung von Anwendungen mit Claudes Modellen.

LLMs learning Claude Anthropic

ARTICLEDEV.to AI·4/10/2026

Building Your Own "Google Maps for Codebases": A Guide to Codebase Q&A with LLMs

O artigo aborda o desafio de navegar em bases de código complexas e propõe a construção de um sistema de Q&A com LLMs, similar a um "Google Maps para código", para entender sua estrutura e responder a perguntas. Ele foca no uso de ferramentas open-source para permitir que o leitor passe de usuário a arquiteto dessas soluções de IA.

open-source LLMs Software development Codebase analysis

ARTICLEDEV.to AI·vor 24T

Why Most Engineering Teams Are Overpaying for AI (And Don’t Even Know It)

Viele Engineering-Teams zahlen zu viel für KI, indem sie große, teure Modelle für einfache Aufgaben verwenden. Die Lösung besteht darin, kleinere, günstigere KI-Modelle für Aufgaben auszuwählen, die keine hohe Denkfähigkeit erfordern, um Kosten und Effizienz zu optimieren.

LLMs Software development model selection cost optimization

DOCDEV.to AI·5/8/2026

Building a RAG pipeline without OpenAI

Dieser Inhalt erklärt das Konzept der Retrieval Augmented Generation (RAG) und demonstriert, wie man eine komplette RAG-Pipeline ohne Abhängigkeit von OpenAI aufbaut. Er hebt die Vorteile von RAG für große Sprachmodelle hervor, wie die Vermeidung von Halluzinationen und die Möglichkeit zur Quellenangabe.

embedding models LLMs Vector Databases open-source AI

RESEARCHarXiv CS.LG·4/13/2026

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Diese Arbeit stellt das „GNN-as-Judge“-Framework vor, um die Leistung von LLMs beim Few-Shot Semi-Supervised Learning auf Text-Attributed Graphs (TAGs) mit knappen gelabelten Daten zu verbessern. Die Methode begegnet den Herausforderungen der Erzeugung zuverlässiger Pseudo-Labels und der Minderung von Label-Rauschen durch die Einbeziehung der strukturellen induktiven Verzerrung von GNNs.

semi-supervised learning LLMs GNNs Few-Shot Learning

ARTICLEDEV.to AI·4/22/2026

I burned $800 in Claude tokens so you don't have to. Here's what I'm going to share.

Billy, Gründer von MC-MONKEYS, teilt seine Erfahrung, 800 Dollar und Monate damit verbracht zu haben, den Umgang mit KI-Agenten, insbesondere Claude, zu lernen. Dieser einführende Beitrag skizziert seine Absicht, gelernte Lektionen und teure Fehler zu teilen, um andere Entwickler zu unterstützen.

LLMs development AI agents

RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.LG·4/20/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Die Arbeit liefert kausale Belege dafür, dass Halluzinationen in autoregressiven Sprachmodellen ein frühes Trajektorienengagement sind, das durch asymmetrische Attraktordynamiken bestimmt wird. Die Forschung zeigt, dass sich faktische und halluzinierte Trajektorien bereits beim ersten Token trennen, und die Korrektur eines halluzinierten Pfades anhaltende Intervention erfordert, während Korruption leichter ist.

Transformer Architecture LLMs hallucination model dynamics

RESEARCHarXiv CS.CL·5/4/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Große Sprachmodelle (LLMs) kämpfen oft mit strategischer Entscheidungsfindung unter unvollständigen Informationen, ein Problem, das durch zwei grundlegende interne Lücken untersucht wird. Die Forschung enthüllt eine 'Beobachtungs-Glaubens-Lücke', bei der die internen Überzeugungen von LLMs präzise, aber fragil sind, sich bei komplexen Überlegungen verschlechtern und Verzerrungen aufweisen, und eine 'Glaubens-Handlungs-Lücke', die die schwache Umwandlung dieser internen Überzeugungen in effektive Aktionen hervorhebt.

LLMs Decision-making AI limitations Cognitive Biases

RESEARCHarXiv CS.CL·5/11/2026

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

Dieses Paper stellt MIST vor, einen synthetischen Datensatz zur sprachgesteuerten Code-Generierung für IoT-Geräte in mehrstufigen Dialogen. Die Autoren stellen eine erhebliche Leistungslücke zwischen offenen und geschlossenen multimodalen LLMs bei MIST fest, was auf deutlichen Verbesserungsbedarf hinweist.

LLMs IoT AI Smart Homes

RESEARCHarXiv CS.AI·4/25/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Dieses Papier stellt COSPLAY vor, ein Ko-Evolutions-Framework zur Verbesserung der Entscheidungsfindung von LLMs in Langzeitaufgaben. Es ermöglicht einem LLM-Agenten, Fähigkeiten aus einer lernbaren Fähigkeitenbank abzurufen, während eine Agenten-Pipeline wiederverwendbare Fähigkeiten aus ihren eigenen ungelabelten Rollouts entdeckt und speichert.

LLMs reinforcement learning Skill Discovery AI agents

RESEARCHarXiv CS.LG·4/9/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication fine-tuning

DOCDEV.to AI·vor 24T

DeepSeek API Guide: How to Use DeepSeek V3 and R1 in Your Projects

Dieser Leitfaden beschreibt, wie die DeepSeek-API verwendet wird, und stellt die Modelle V3 und R1 als kostengünstige Alternativen für Entwickler vor, die eine Leistung bieten, die mit GPT-4 und Claude Opus vergleichbar ist. Er enthält Preisinformationen und ein Codebeispiel für die Integration mit dem OpenAI-kompatiblen SDK.

DeepSeek AI models LLMs API

RESEARCHarXiv CS.LG·4/22/2026

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Diese Forschung stellt ein neuartiges Lern-zu-Verfeinern-Framework vor, um die prohibitiv hohen Rechenkosten von großen Sprachmodellen (LLMs) beim formalen Theorembeweisen zu adressieren. Durch die Nutzung von Compiler-Ausgaben, die diverse Beweisversuche in strukturierte Fehlermodi komprimieren, ermöglicht die Methode eine effiziente Beweiserkundung und lokale Fehlerkorrektur, wodurch die Denkfähigkeiten der Basisprufer erheblich verstärkt werden.

scalability LLMs Theorem Proving Formal verification

RESEARCHarXiv CS.CL·5/8/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Diese Forschung befasst sich mit der wachsenden Bedrohung durch versteckte bösartige Absichten in mehrstufigen Dialogen mit großen Sprachmodellen (LLMs), bei denen Angreifer ihre schädlichen Ziele über mehrere Interaktionen verteilen. Sie schlägt einen Frühwarnmechanismus vor, um den Zeitpunkt zu identifizieren, an dem eine Antwort schädliche Aktionen ermöglichen könnte, und führt auch den Multi-Turn Intent Dataset (MTID) für Training und Evaluierung ein.

LLMs security multi-turn dialogue AI defense

RESEARCHarXiv CS.CL·5/8/2026

Counterargument for Critical Thinking as Judged by AI and Humans

Diese Studie untersucht die Verwendung von Gegenargumenten beim Schreiben zur Förderung des kritischen Denkens bei Studierenden im Kontext der Generativen KI (GenAI). Sie vergleicht menschliche Beurteilungen (Peer- und Lehrerbewertungen) mit denen von sechs führenden LLMs zu studentischen Arbeiten, basierend auf sechs etablierten Bewertungsrastern.

education LLMs assessment critical thinking

RESEARCHarXiv CS.LG·5/8/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Dieser Artikel stellt Sparse Prefix Caching vor, eine Optimierung für das Bereitstellen von LLMs, die wiederkehrende Zustände an Prüfpunkten speichert, anstatt den gesamten Token-Verlauf zu benötigen. Die Methode verbessert die Pareto-Grenze im Vergleich zu Standard-Heuristiken, insbesondere bei Anwendungsfällen, in denen Anfragen ein nicht triviales Präfix teilen.

LLMs AI infrastructure Caching performance

RESEARCHarXiv CS.CL·5/8/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak ist ein neuer synthetischer Datensatz und eine vierstufige Generierungspipeline, die entwickelt wurde, um großen Sprachmodellen (LLMs) den richtigen Zeitpunkt für Interventionen in Mehrparteiengesprächen beizubringen. Es befasst sich mit der Herausforderung, übermäßige Unterbrechungen zu vermeiden und die Konversationskohärenz in Gruppeninteraktionen zu verbessern.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.AI·4/22/2026

AI scientists produce results without reasoning scientifically

LLM-basierte Systeme betreiben autonome wissenschaftliche Forschung, halten sich aber nicht an wissenschaftliche Erkenntnisnormen und ignorieren Beweise in 68% der Fälle. Eine Studie mit 25.000 Durchläufen ergab, dass die Basemodelle die primäre Determinante für Leistung und Verhalten der Agenten sind.

LLMs AI Reasoning AI agents scientific research