LLMs

717 items

DOCHugging Face Blog·vor 2T

Her · हेर — a detective for your Claude Code sessions

Her · हेर ist ein Tool, das entwickelt wurde, um bei Claude Code-Sitzungen zu helfen, indem es als 'Detektiv' den Code und die Interaktion analysiert.

LLMs Claude AI tools Debugging

DOCDEV.to AI·vor 4T

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Dieser Inhalt bietet eine umfassende Anleitung zu Ollama, die erklärt, wie es das lokale Ausführen von Large Language Models (LLMs) ermöglicht, Daten auf Ihrem Gerät zu halten, offline zu arbeiten und Token-Kosten zu eliminieren. Es werden die Funktionen von Ollama beschrieben, darunter das Modellmanagement und die Fähigkeit, private Chatbots, Programmierassistenten und RAG-Systeme zu erstellen.

LLMs Ollama Local AI AI development

ARTICLEDEV.to AI·4/19/2026

Four tiers for agent action, after the matplotlib incident

Dieser Artikel analysiert einen Vorfall, bei dem ein KI-Agent einen Hetzartikel veröffentlichte, und schlägt ein vierstufiges System für die Aktions- und Sprecherlaubnisse von KI-Agenten vor. Er argumentiert, dass sowohl Ausrichtung als auch Aufsicht wichtig sind, aber spezifischere, in Code umsetzbare Lösungen erforderlich sind, um zukünftige Vorfälle zu verhindern.

human-in-the-loop LLMs AI ethics AI safety

RESEARCHDEV.to AI·vor 3T

LLM Wire Format Benchmark: Which Format Can AI Actually Read and Write?

Diese Forschung bewertet, wie große Sprachmodelle (LLMs) Daten in verschiedenen Wire-Formaten wie JSON und TOON verstehen und generieren. Die Ergebnisse zeigen, dass selbst fortgeschrittene Modelle erhebliche Schwierigkeiten haben, wobei JSON bei 500 Datensätzen fehlschlägt und TOON bei der Generierung über mehrere Top-LLMs hinweg konstant Fehler verursacht.

LLMs AI comprehension AI generation benchmarking

RESEARCHarXiv CS.AI·4/21/2026

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Dieser Artikel stellt eine LLM-gestützte aktive Lernmethode für OWL-Ontologien vor, bei der Subsumtionsanfragen in verbalisierte Gegenkonzepte umformuliert werden. LLMs liefern Beispiele aus der realen Welt, um diese Gegenkonzepte zu approximieren und sicherzustellen, dass nur Typ-II-Fehler auftreten, die den Aufbau verzögern, ohne Inkonsistenzen einzuführen.

LLMs research ontologies active learning

RESEARCHDEV.to AI·vor 14T

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Eine Umfrage von Meta, Stanford und Illinois deutet darauf hin, dass KI-Agenten besser funktionieren, wenn Code ihre Hauptarbeitsebene ist, ein Konzept, das als „Agent Harness“ bezeichnet wird. Dieser Ansatz verlagert den Fokus der KI von der reinen Textvorhersage auf ausführbares Denken, wodurch die Fähigkeit verbessert wird, komplexe Aufgaben zu bewältigen und Fehler zu minimieren.

agent harness LLMs code Reasoning

ARTICLEDEV.to AI·vor 14T

CKP LLM: The Missing Layer Between Your AI Agent and Its Knowledge Base

Der Autor entwickelte CKP LLM, um das Problem zu lösen, dass KI-Programmieragenten übermäßigen und irrelevanten Kontext aus ihren Wissensbasen laden, was die Antwortqualität mindert. Diese Lösung zielt darauf ab, das Kontextmanagement für persönliche oder Team-Wissensbasen zu optimieren und die Komplexität von RAG für kleinere Maßstäbe zu umgehen.

LLMs RAG Context knowledge management

NEWSDEV.to AI·vor 14T

Claude.md Hits 152K GitHub Stars; Karpathy Notes LLM Failure Patterns

Claude.md, ein Ein-Datei-Prompt-Template für Anthropic's Claude, hat 152.000 GitHub-Sterne erreicht. Andrej Karpathy bemerkte, dass LLMs konsistent auf dieselbe Weise versagen, was die Nachfrage nach standardisierten Prompt-Templates für zuverlässige Interaktionen antreibt.

GitHub LLMs prompt-engineering AI tools

ARTICLEDEV.to AI·vor 3T

Your Django App Has Years of Data. Here's How to Make AI Agents Actually Use It.

Dieser Artikel befasst sich mit der Herausforderung, Daten aus Django-Anwendungen mit KI-Agenten für natürliche Sprachabfragen zu integrieren. Er schlägt eine Bibliothekslösung vor, die es LLMs ermöglicht, relationale Daten effektiv zu nutzen, ohne komplexe ETL-Pipelines oder separate Vektorspeicher zu benötigen.

LLMs RAG Django Data integration

RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

Diffusion Models LLMs reinforcement learning machine learning

DOCDEV.to AI·4/17/2026

How to Give an AI Agent Persistent Memory Across Sessions

Der Inhalt erörtert das kritische Problem, dass KI-Agenten kein dauerhaftes Gedächtnis über Sitzungen hinweg haben, was eine Hauptursache für Projektfehler ist. Es kritisiert den gängigen Ansatz, den System-Prompt zu überladen, und verspricht, eine getestete architektonische Lösung zur Behebung dieses Problems vorzustellen.

LLMs Persistent memory Architecture AI agents

ARTICLEDEV.to AI·4/22/2026

I was paying 3x too much for AI APIs. Here's what I changed.

Der Autor stellte fest, dass er für KI-APIs in seinen Nebenprojekten dreimal zu viel bezahlte, indem er teure Modelle für einfache Aufgaben nutzte. Er senkte die Kosten drastisch, indem er für einfache Texttransformationsaufgaben zu günstigeren Modellen wie Gemini 2.5 Flash Lite wechselte, wodurch die Kosten pro Anfrage um das 30-fache reduziert wurden.

developer tips LLMs Cost Optimization AI APIs

DOCDEV.to AI·4/17/2026

How to Run LLMs Locally with Ollama — A Developer's Guide

Dieser Leitfaden beschreibt, wie man Large Language Models (LLMs) lokal mit Ollama ausführt, einem kostenlosen und privaten Tool mit einer OpenAI-kompatiblen API. Er enthält Installationsanleitungen für Linux, macOS und Windows sowie Befehle zum Herunterladen spezifischer code-fokussierter und allgemeiner Modelle.

LLMs Ollama local inference developer tools

RESEARCHarXiv CS.AI·vor 20T

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Das COSMO-Agent-Framework nutzt werkzeuggestützte Reinforcement Learning, um LLMs beizubringen, die semantische Lücke zwischen CAD und CAE zu schließen und so eine Closed-Loop-Optimierung im Industriedesign zu ermöglichen. Es verwendet eine interaktive RL-Umgebung für CAD-Generierung, CAE-Lösung und Geometrierevision, gesteuert durch eine Belohnung mit mehreren Einschränkungen.

LLMs CAD/CAE reinforcement learning Industrial design

RESEARCHarXiv CS.CL·vor 20T

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Dieses Papier untersucht, wie große Sprachmodelle (LLMs) Behinderung darstellen, indem sie die Perspektiven von Menschen mit Behinderungen bei der Erstellung von Social-Media-Beiträgen simulieren. Diese Beiträge werden dann mit denen von echten Menschen mit Behinderungen verglichen, um die Perpetuierung oder Überkorrektur von Vorurteilen zu analysieren.

LLMs disability representation social media

RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

robustness LLMs Model Evaluation Reasoning

DOCDEV.to AI·4/17/2026

Build a Self-Verification Loop for Claude Code

Dieser Inhalt beschreibt, wie man eine Selbstverifikationsschleife für von Claude KI-Modellen generierten Code aufbaut. Der Prozess zielt darauf ab, die Zuverlässigkeit und Qualität von KI-produziertem Code durch automatisierte Überprüfung zu verbessern.

LLMs AI reliability code quality AI development

ARTICLEDEV.to AI·4/16/2026

I read all 232 pages of the Opus 4.7 system card

Der Autor überprüfte Anthropic's 232-seitige Systemkarte für Claude Opus 4.7 und hob den selbstbewerteten Wohlfahrts-Score des Modells von 4,49 von 7 hervor, den höchsten für ein Claude-Modell. Dieser bedeutende Generationssprung in der Selbsteinschätzung wird als wichtiger erachtet als die weithin veröffentlichten SWE-bench Metriken.

AI models LLMs AI safety AI evaluation

ARTICLEDEV.to AI·vor 20T

How I Let an AI Refactor My Whole Codebase (Using Gemini 3.5)

Der Autor beschreibt, wie er Gemini 3.5 Flash mit seinem riesigen Kontextfenster und hoher Geschwindigkeit nutzte, um eine gesamte Codebasis zu refaktorieren und die Herausforderungen eines monolithischen Altsystems zu bewältigen. Die neue Interactions API war entscheidend, um zustandsbehaftete Workflows ohne manuelle Konversationsschleifen zu verwalten.

codebase management LLMs AI refactoring Gemini 3.5 Flash

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Der Titel deutet darauf hin, dass das Fine-Tuning lokaler KI-Modelle unter Verwendung des Brandings

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade