← heapsort-ai

LLMs

723 items

ARTICLEDEV.to AI·4/22/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness ist ein leichtgewichtiges Open-Source-Projekt, das KI-Agenten eine effiziente und kostengünstige Interaktion mit Browsern ermöglicht, indem es die Grenzen traditioneller Automatisierungstools wie Playwright oder Selenium überwindet. Dies wird durch eine direkte Brücke zum Chrome DevTools Protocol erreicht, die Agenten dazu ermutigt, ihre eigenen Hilfsfunktionen in Echtzeit zu erstellen und zu ändern.

27
DOCDEV.to AI·vor 22T

89. The Claude API: Building with Anthropic's Models

Dieser Beitrag untersucht die Claude-API von Anthropic, hebt deren Philosophie der kombinierten Leistungsfähigkeit und Sicherheit hervor und zeigt die Unterschiede zu OpenAI auf. Er bietet eine Anleitung von der Einrichtung bis zu den Produktionsmustern für die Entwicklung von Anwendungen mit Claudes Modellen.

27
ARTICLEDEV.to AI·4/10/2026

Building Your Own "Google Maps for Codebases": A Guide to Codebase Q&A with LLMs

O artigo aborda o desafio de navegar em bases de código complexas e propõe a construção de um sistema de Q&A com LLMs, similar a um "Google Maps para código", para entender sua estrutura e responder a perguntas. Ele foca no uso de ferramentas open-source para permitir que o leitor passe de usuário a arquiteto dessas soluções de IA.

27
RESEARCHarXiv CS.LG·4/13/2026

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Diese Arbeit stellt das „GNN-as-Judge“-Framework vor, um die Leistung von LLMs beim Few-Shot Semi-Supervised Learning auf Text-Attributed Graphs (TAGs) mit knappen gelabelten Daten zu verbessern. Die Methode begegnet den Herausforderungen der Erzeugung zuverlässiger Pseudo-Labels und der Minderung von Label-Rauschen durch die Einbeziehung der strukturellen induktiven Verzerrung von GNNs.

27
RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

27
RESEARCHarXiv CS.LG·4/20/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Die Arbeit liefert kausale Belege dafür, dass Halluzinationen in autoregressiven Sprachmodellen ein frühes Trajektorienengagement sind, das durch asymmetrische Attraktordynamiken bestimmt wird. Die Forschung zeigt, dass sich faktische und halluzinierte Trajektorien bereits beim ersten Token trennen, und die Korrektur eines halluzinierten Pfades anhaltende Intervention erfordert, während Korruption leichter ist.

27
RESEARCHarXiv CS.CL·5/4/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Große Sprachmodelle (LLMs) kämpfen oft mit strategischer Entscheidungsfindung unter unvollständigen Informationen, ein Problem, das durch zwei grundlegende interne Lücken untersucht wird. Die Forschung enthüllt eine 'Beobachtungs-Glaubens-Lücke', bei der die internen Überzeugungen von LLMs präzise, aber fragil sind, sich bei komplexen Überlegungen verschlechtern und Verzerrungen aufweisen, und eine 'Glaubens-Handlungs-Lücke', die die schwache Umwandlung dieser internen Überzeugungen in effektive Aktionen hervorhebt.

27
RESEARCHarXiv CS.AI·4/25/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Dieses Papier stellt COSPLAY vor, ein Ko-Evolutions-Framework zur Verbesserung der Entscheidungsfindung von LLMs in Langzeitaufgaben. Es ermöglicht einem LLM-Agenten, Fähigkeiten aus einer lernbaren Fähigkeitenbank abzurufen, während eine Agenten-Pipeline wiederverwendbare Fähigkeiten aus ihren eigenen ungelabelten Rollouts entdeckt und speichert.

27
RESEARCHarXiv CS.LG·4/9/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·4/22/2026

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Diese Forschung stellt ein neuartiges Lern-zu-Verfeinern-Framework vor, um die prohibitiv hohen Rechenkosten von großen Sprachmodellen (LLMs) beim formalen Theorembeweisen zu adressieren. Durch die Nutzung von Compiler-Ausgaben, die diverse Beweisversuche in strukturierte Fehlermodi komprimieren, ermöglicht die Methode eine effiziente Beweiserkundung und lokale Fehlerkorrektur, wodurch die Denkfähigkeiten der Basisprufer erheblich verstärkt werden.

27
RESEARCHarXiv CS.CL·5/8/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Diese Forschung befasst sich mit der wachsenden Bedrohung durch versteckte bösartige Absichten in mehrstufigen Dialogen mit großen Sprachmodellen (LLMs), bei denen Angreifer ihre schädlichen Ziele über mehrere Interaktionen verteilen. Sie schlägt einen Frühwarnmechanismus vor, um den Zeitpunkt zu identifizieren, an dem eine Antwort schädliche Aktionen ermöglichen könnte, und führt auch den Multi-Turn Intent Dataset (MTID) für Training und Evaluierung ein.

27
RESEARCHarXiv CS.LG·5/8/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Dieser Artikel stellt Sparse Prefix Caching vor, eine Optimierung für das Bereitstellen von LLMs, die wiederkehrende Zustände an Prüfpunkten speichert, anstatt den gesamten Token-Verlauf zu benötigen. Die Methode verbessert die Pareto-Grenze im Vergleich zu Standard-Heuristiken, insbesondere bei Anwendungsfällen, in denen Anfragen ein nicht triviales Präfix teilen.

27
RESEARCHarXiv CS.CL·5/8/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak ist ein neuer synthetischer Datensatz und eine vierstufige Generierungspipeline, die entwickelt wurde, um großen Sprachmodellen (LLMs) den richtigen Zeitpunkt für Interventionen in Mehrparteiengesprächen beizubringen. Es befasst sich mit der Herausforderung, übermäßige Unterbrechungen zu vermeiden und die Konversationskohärenz in Gruppeninteraktionen zu verbessern.

27