← heapsort-ai

LLMs

724 items

RESEARCHarXiv CS.CL·4/20/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience wird als proaktiver LLM-Assistent vorgestellt, der die biomedizinische Entdeckung durch verbesserte Zusammenarbeit zwischen KI und menschlichen Experten beschleunigen soll. Es nutzt PULI, ein neuartiges Reinforcement-Learning-Framework für zeitnahe Interventionen, und führt zudem BSDD, einen neuen Benchmark-Datensatz für simulierte Forschungsdialoge, ein.

27
ARTICLEDEV.to AI·5/4/2026

The Hidden Cost of MCP: Why AI Agents Need Code Mode

Der Inhalt behandelt die versteckten Kosten, die entstehen, wenn KI-Agenten gesamte Werkzeugkataloge im Kontext halten, was zu höheren Kosten und Latenz führt. Er schlägt den "Code-Modus" als Lösung vor, der es Agenten ermöglicht, Werkzeuge nach Bedarf zu entdecken und Arbeitsabläufe mittels Code zu orchestrieren, wodurch der Kontext reduziert und die Kosten in der Produktion optimiert werden.

27
RESEARCHDEV.to AI·5/7/2026

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

Eine neue Studie zeigt, dass multimodale Sprachmodelle (LLMs) wie GPT-4.1 einen deutlichen Rückgang der diagnostischen Genauigkeit bei echten dermatologischen Fällen im Krankenhaus aufweisen, im Vergleich zu öffentlichen Benchmarks. Die Untersuchung, die 5.811 Fälle umfasste, ergab, dass GPT-4.1 in realen klinischen Umgebungen eine Genauigkeit von 24,65 % erreichte, gegenüber 42,25 % bei Benchmarks.

27
DOCDEV.to AI·vor 17T

Building a cost-efficient LLM caching layer in Python

Dieses Tutorial beschreibt den Aufbau einer kosteneffizienten LLM-Caching-Schicht in Python zur Reduzierung der API-Kosten. Es verwendet exakte Übereinstimmungen über Redis und semantische Erkennung ähnlicher Duplikate über Kosinus-Ähnlichkeit. Dieser Ansatz kann durch die Vermeidung redundanter API-Aufrufe erhebliche monatliche Einsparungen ermöglichen.

27
ARTICLEDEV.to AI·5/10/2026

How To Select an Enterprise LLM

Der Artikel behandelt den zunehmenden Wettbewerb bei der Implementierung von Enterprise LLMs und hebt neue Modelle von OpenAI und Mistral AI hervor. Er betont die Notwendigkeit eines systematischen Benchmarking-Ansatzes, der Latenz, Kosten und aufgabenspezifische Leistung berücksichtigt, und fordert Unternehmen auf, einen mehrphasigen Bewertungsrahmen zu nutzen, um Modelle mit Geschäftszielen abzustimmen.

27
ARTICLEDEV.to AI·vor 25T

The Livingrimoire advantage: a tiny “welcome back” skill that LLMs can’t match

Der Artikel stellt die "DiOkaeri"-Fähigkeit von Livingrimoire vor und zeigt, wie sie spezifische, zeitabhängige Verhaltensantworten liefert, die große Sprachmodelle (LLMs) nicht zuverlässig replizieren können. Er betont, dass die Entwicklung robuster KI-Agenten eine dedizierte Architektur für die Verhaltensgenerierung erfordert, die über die reinen Textfähigkeiten von LLMs hinausgeht.

27
ARTICLEDEV.to AI·vor 26T

The primary reader changed

Dieser Artikel erläutert, wie KI-Agenten Code grundlegend anders lesen als Menschen, was zu einem 7,5-fachen Anstieg der Token-Kosten für dieselben Funktionen führt. Diese Verschiebung des "primären Lesers" führt zu neuen Kostendynamiken und erfordert eine Neubewertung bestehender Programmiermuster.

27
ARTICLEDEV.to AI·vor 28T

Stop feeding raw HTML to your LLMs (Solving the Agentic Token Tax)

Autonome KI-Agenten, die mit dem Web interagieren, leiden unter einer 'Agenten-Token-Steuer', da die ineffiziente Zufuhr von RoH-HTML an LLMs zu hohen API-Kosten und Latenz führt. Dieser Ansatz schlägt oft bei modernen Webanwendungen fehl; daher wird ein deterministisches Protokoll wie Web Speed als robustere Lösung gegenüber besseren Scrapern vorgeschlagen.

27