← heapsort-ai

LLMs

717 items

DOCDEV.to AI·vor 4T

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Dieser Inhalt bietet eine umfassende Anleitung zu Ollama, die erklärt, wie es das lokale Ausführen von Large Language Models (LLMs) ermöglicht, Daten auf Ihrem Gerät zu halten, offline zu arbeiten und Token-Kosten zu eliminieren. Es werden die Funktionen von Ollama beschrieben, darunter das Modellmanagement und die Fähigkeit, private Chatbots, Programmierassistenten und RAG-Systeme zu erstellen.

32
ARTICLEDEV.to AI·4/19/2026

Four tiers for agent action, after the matplotlib incident

Dieser Artikel analysiert einen Vorfall, bei dem ein KI-Agent einen Hetzartikel veröffentlichte, und schlägt ein vierstufiges System für die Aktions- und Sprecherlaubnisse von KI-Agenten vor. Er argumentiert, dass sowohl Ausrichtung als auch Aufsicht wichtig sind, aber spezifischere, in Code umsetzbare Lösungen erforderlich sind, um zukünftige Vorfälle zu verhindern.

32
RESEARCHDEV.to AI·vor 3T

LLM Wire Format Benchmark: Which Format Can AI Actually Read and Write?

Diese Forschung bewertet, wie große Sprachmodelle (LLMs) Daten in verschiedenen Wire-Formaten wie JSON und TOON verstehen und generieren. Die Ergebnisse zeigen, dass selbst fortgeschrittene Modelle erhebliche Schwierigkeiten haben, wobei JSON bei 500 Datensätzen fehlschlägt und TOON bei der Generierung über mehrere Top-LLMs hinweg konstant Fehler verursacht.

31
RESEARCHarXiv CS.AI·4/21/2026

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Dieser Artikel stellt eine LLM-gestützte aktive Lernmethode für OWL-Ontologien vor, bei der Subsumtionsanfragen in verbalisierte Gegenkonzepte umformuliert werden. LLMs liefern Beispiele aus der realen Welt, um diese Gegenkonzepte zu approximieren und sicherzustellen, dass nur Typ-II-Fehler auftreten, die den Aufbau verzögern, ohne Inkonsistenzen einzuführen.

31
RESEARCHDEV.to AI·vor 14T

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Eine Umfrage von Meta, Stanford und Illinois deutet darauf hin, dass KI-Agenten besser funktionieren, wenn Code ihre Hauptarbeitsebene ist, ein Konzept, das als „Agent Harness“ bezeichnet wird. Dieser Ansatz verlagert den Fokus der KI von der reinen Textvorhersage auf ausführbares Denken, wodurch die Fähigkeit verbessert wird, komplexe Aufgaben zu bewältigen und Fehler zu minimieren.

31
RESEARCHarXiv CS.LG·4/22/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.

30
RESEARCHarXiv CS.AI·vor 20T

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Das COSMO-Agent-Framework nutzt werkzeuggestützte Reinforcement Learning, um LLMs beizubringen, die semantische Lücke zwischen CAD und CAE zu schließen und so eine Closed-Loop-Optimierung im Industriedesign zu ermöglichen. Es verwendet eine interaktive RL-Umgebung für CAD-Generierung, CAE-Lösung und Geometrierevision, gesteuert durch eine Belohnung mit mehreren Einschränkungen.

30
RESEARCHarXiv CS.CL·vor 20T

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Dieses Papier untersucht, wie große Sprachmodelle (LLMs) Behinderung darstellen, indem sie die Perspektiven von Menschen mit Behinderungen bei der Erstellung von Social-Media-Beiträgen simulieren. Diese Beiträge werden dann mit denen von echten Menschen mit Behinderungen verglichen, um die Perpetuierung oder Überkorrektur von Vorurteilen zu analysieren.

30
RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

30
ARTICLEDEV.to AI·4/16/2026

I read all 232 pages of the Opus 4.7 system card

Der Autor überprüfte Anthropic's 232-seitige Systemkarte für Claude Opus 4.7 und hob den selbstbewerteten Wohlfahrts-Score des Modells von 4,49 von 7 hervor, den höchsten für ein Claude-Modell. Dieser bedeutende Generationssprung in der Selbsteinschätzung wird als wichtiger erachtet als die weithin veröffentlichten SWE-bench Metriken.

30