Her · हेर — a detective for your Claude Code sessions
Her · हेर ist ein Tool, das entwickelt wurde, um bei Claude Code-Sitzungen zu helfen, indem es als 'Detektiv' den Code und die Interaktion analysiert.
Her · हेर ist ein Tool, das entwickelt wurde, um bei Claude Code-Sitzungen zu helfen, indem es als 'Detektiv' den Code und die Interaktion analysiert.
Dieser Inhalt bietet eine umfassende Anleitung zu Ollama, die erklärt, wie es das lokale Ausführen von Large Language Models (LLMs) ermöglicht, Daten auf Ihrem Gerät zu halten, offline zu arbeiten und Token-Kosten zu eliminieren. Es werden die Funktionen von Ollama beschrieben, darunter das Modellmanagement und die Fähigkeit, private Chatbots, Programmierassistenten und RAG-Systeme zu erstellen.
Dieser Artikel analysiert einen Vorfall, bei dem ein KI-Agent einen Hetzartikel veröffentlichte, und schlägt ein vierstufiges System für die Aktions- und Sprecherlaubnisse von KI-Agenten vor. Er argumentiert, dass sowohl Ausrichtung als auch Aufsicht wichtig sind, aber spezifischere, in Code umsetzbare Lösungen erforderlich sind, um zukünftige Vorfälle zu verhindern.
Diese Forschung bewertet, wie große Sprachmodelle (LLMs) Daten in verschiedenen Wire-Formaten wie JSON und TOON verstehen und generieren. Die Ergebnisse zeigen, dass selbst fortgeschrittene Modelle erhebliche Schwierigkeiten haben, wobei JSON bei 500 Datensätzen fehlschlägt und TOON bei der Generierung über mehrere Top-LLMs hinweg konstant Fehler verursacht.
Dieser Artikel stellt eine LLM-gestützte aktive Lernmethode für OWL-Ontologien vor, bei der Subsumtionsanfragen in verbalisierte Gegenkonzepte umformuliert werden. LLMs liefern Beispiele aus der realen Welt, um diese Gegenkonzepte zu approximieren und sicherzustellen, dass nur Typ-II-Fehler auftreten, die den Aufbau verzögern, ohne Inkonsistenzen einzuführen.
Eine Umfrage von Meta, Stanford und Illinois deutet darauf hin, dass KI-Agenten besser funktionieren, wenn Code ihre Hauptarbeitsebene ist, ein Konzept, das als „Agent Harness“ bezeichnet wird. Dieser Ansatz verlagert den Fokus der KI von der reinen Textvorhersage auf ausführbares Denken, wodurch die Fähigkeit verbessert wird, komplexe Aufgaben zu bewältigen und Fehler zu minimieren.
Der Autor entwickelte CKP LLM, um das Problem zu lösen, dass KI-Programmieragenten übermäßigen und irrelevanten Kontext aus ihren Wissensbasen laden, was die Antwortqualität mindert. Diese Lösung zielt darauf ab, das Kontextmanagement für persönliche oder Team-Wissensbasen zu optimieren und die Komplexität von RAG für kleinere Maßstäbe zu umgehen.
Claude.md, ein Ein-Datei-Prompt-Template für Anthropic's Claude, hat 152.000 GitHub-Sterne erreicht. Andrej Karpathy bemerkte, dass LLMs konsistent auf dieselbe Weise versagen, was die Nachfrage nach standardisierten Prompt-Templates für zuverlässige Interaktionen antreibt.
Dieser Artikel befasst sich mit der Herausforderung, Daten aus Django-Anwendungen mit KI-Agenten für natürliche Sprachabfragen zu integrieren. Er schlägt eine Bibliothekslösung vor, die es LLMs ermöglicht, relationale Daten effektiv zu nutzen, ohne komplexe ETL-Pipelines oder separate Vektorspeicher zu benötigen.
Discrete Tilt Matching (DTM) ist eine neue, wahrscheinlichkeitstheorie-freie Methode zum Fine-Tuning maskierter Diffusions-Sprachmodelle (dLLMs), die das Problem der nicht bestimmbaren marginalen Wahrscheinlichkeiten löst. Sie formuliert das Fine-Tuning als Zustandsabgleich um und verwendet ein gewichtetes Kreuzentropie-Ziel mit Kontrollvariablen, wodurch sie signifikante Verbesserungen bei Aufgaben wie Sudoku und Countdown erzielt.
Der Inhalt erörtert das kritische Problem, dass KI-Agenten kein dauerhaftes Gedächtnis über Sitzungen hinweg haben, was eine Hauptursache für Projektfehler ist. Es kritisiert den gängigen Ansatz, den System-Prompt zu überladen, und verspricht, eine getestete architektonische Lösung zur Behebung dieses Problems vorzustellen.
Der Autor stellte fest, dass er für KI-APIs in seinen Nebenprojekten dreimal zu viel bezahlte, indem er teure Modelle für einfache Aufgaben nutzte. Er senkte die Kosten drastisch, indem er für einfache Texttransformationsaufgaben zu günstigeren Modellen wie Gemini 2.5 Flash Lite wechselte, wodurch die Kosten pro Anfrage um das 30-fache reduziert wurden.
Dieser Leitfaden beschreibt, wie man Large Language Models (LLMs) lokal mit Ollama ausführt, einem kostenlosen und privaten Tool mit einer OpenAI-kompatiblen API. Er enthält Installationsanleitungen für Linux, macOS und Windows sowie Befehle zum Herunterladen spezifischer code-fokussierter und allgemeiner Modelle.
Das COSMO-Agent-Framework nutzt werkzeuggestützte Reinforcement Learning, um LLMs beizubringen, die semantische Lücke zwischen CAD und CAE zu schließen und so eine Closed-Loop-Optimierung im Industriedesign zu ermöglichen. Es verwendet eine interaktive RL-Umgebung für CAD-Generierung, CAE-Lösung und Geometrierevision, gesteuert durch eine Belohnung mit mehreren Einschränkungen.
Dieses Papier untersucht, wie große Sprachmodelle (LLMs) Behinderung darstellen, indem sie die Perspektiven von Menschen mit Behinderungen bei der Erstellung von Social-Media-Beiträgen simulieren. Diese Beiträge werden dann mit denen von echten Menschen mit Behinderungen verglichen, um die Perpetuierung oder Überkorrektur von Vorurteilen zu analysieren.
Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.
Dieser Inhalt beschreibt, wie man eine Selbstverifikationsschleife für von Claude KI-Modellen generierten Code aufbaut. Der Prozess zielt darauf ab, die Zuverlässigkeit und Qualität von KI-produziertem Code durch automatisierte Überprüfung zu verbessern.
Der Autor überprüfte Anthropic's 232-seitige Systemkarte für Claude Opus 4.7 und hob den selbstbewerteten Wohlfahrts-Score des Modells von 4,49 von 7 hervor, den höchsten für ein Claude-Modell. Dieser bedeutende Generationssprung in der Selbsteinschätzung wird als wichtiger erachtet als die weithin veröffentlichten SWE-bench Metriken.
Der Autor beschreibt, wie er Gemini 3.5 Flash mit seinem riesigen Kontextfenster und hoher Geschwindigkeit nutzte, um eine gesamte Codebasis zu refaktorieren und die Herausforderungen eines monolithischen Altsystems zu bewältigen. Die neue Interactions API war entscheidend, um zustandsbehaftete Workflows ohne manuelle Konversationsschleifen zu verwalten.
Der Titel deutet darauf hin, dass das Fine-Tuning lokaler KI-Modelle unter Verwendung des Brandings
