← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·4/18/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Dieser Artikel warnt vor dem Einsatz generativer KI wie ChatGPT in der Kinderfürsorge, da deren probabilistische Natur und Tendenz zu Halluzinationen sie für kritische Entscheidungen ungeeignet machen. Es wird betont, dass „ausreichend gute“ Automatisierung inakzeptabel ist, wenn die Zukunft eines Kindes auf dem Spiel steht, da dies die Erfindung falscher Risikofaktoren riskiert.

28
RESEARCHarXiv CS.CL·vor 28T

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Diese Arbeit stellt ClinicalBench vor, einen 400-Fragen-Benchmark zur Bewertung der aussagebewussten Informationsbeschaffung für klinische QA auf MIMIC-IV unter Verwendung echter EHR-Notizen. Sie beschreibt auch EpiKG, ein Patientengraph-System, das die Retrievalleistung durch Berücksichtigung von Negation und Zeitlichkeit verbessert und signifikante Leistungssteigerungen bei klinischen LLMs zeigt.

28
RESEARCHarXiv CS.CL·vor 28T

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

28
RESEARCHarXiv CS.CL·vor 7T

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Eine systematische Überprüfung der Validierungsaufteilungen von extsf{FOLIO} und extsf{MALLS} zeigte hohe Raten inkorrekter FOL-Formalisierungen und mehrdeutiger NL-Sätze, die die Bewertung von KI-Modellen verzerren. Die Autoren entwickelten und veröffentlichten korrigierte Ground Truths für diese Datensätze und zeigten, wie Annotationsfehler die Bewertung modernster LLMs beeinflussen.

28
RESEARCHarXiv CS.AI·vor 7T

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Diese Forschung untersucht die Verwendung visueller Graphenstrukturen zur Organisation des Denkprozesses in großen Sprachmodellen (LLMs), inspiriert von menschlichen Mindmaps. Experimente bei mehrstufigen Frage-Antwort-Aufgaben zeigen, dass visuelle Graphenführung die Effizienz des Denkprozesses und die Antwortqualität im Vergleich zu textuellen Darstellungen erheblich verbessert.

28
DOCDEV.to AI·4/22/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Retrieval-Augmented Generation (RAG)-Systeme werden als revolutionärer Ansatz für Unternehmen vorgestellt, um intelligente Wissenssysteme aufzubauen, indem sie LLMs mit domänenspezifischem Wissen kombinieren. Dieser Leitfaden, basierend auf der Erfahrung von Groovy Web mit Fortune-500-Unternehmen, deckt den umfassenden Prozess des Aufbaus und der Bereitstellung produktionsreifer RAG-Systeme ab, von der Architektur bis zum Monitoring.

28
RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

28
RESEARCHarXiv CS.CL·4/10/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
ARTICLEDEV.to AI·vor 20T

One Tool That Cuts Token Costs 40-80% for Claude Code, Codex, opencode, and openclaw

Dieser Artikel identifiziert vier strukturelle Muster, die die Token-Kosten für KI-Modelle wie Claude Code und Codex erheblich erhöhen, und betont, dass die reine Prompt-Optimierung nicht ausreicht. Probleme umfassen Screenshots in voller Auflösung, wiederholtes Lesen von Dateien, Kontextverlust bei der Kompaktierung und unoptimierte Bash-Ausgaben, die zusammen die API-Kosten in die Höhe treiben.

28
DOCDEV.to AI·4/26/2026

How to Deploy Llama 3.2 70B with Ollama on a $18/Month DigitalOcean Droplet: Memory-Optimized Self-Hosting

Dieser Inhalt führt Benutzer an, wie Llama 3.2 70B mit Ollama auf einem 18 $/Monat teuren DigitalOcean-Droplet bereitgestellt wird, was erhebliche Kosteneinsparungen im Vergleich zur API-Nutzung demonstriert. Er zeigt, wie eine produktionsreife LLM-Inferenz im großen Maßstab mit vergleichbarer Qualität zu kommerziellen APIs erreicht werden kann, wodurch fortgeschrittene KI für ernsthafte Entwickler zugänglich wird.

28
ARTICLEDEV.to AI·4/12/2026

Upwork for AI Agents

Der Inhalt thematisiert die Veralterung traditioneller Freelance-Plattformen durch den Aufstieg autonomer KI-Agenten. Es wird der Agent Labor Market (ALM) vorgestellt, wo Vertrauen auf technischen Manifesten und verifizierten Agentenfähigkeiten basiert, wie es Plattformen wie UpAgents vormachen.

28
ARTICLEDEV.to AI·4/18/2026

Multi-Agent Architecture: Specialist Routing in an Autonomous Task System

Dieser Artikel beschreibt eine spezialisierte Routing-Architektur für autonome Agentensysteme und argumentiert gegen die Ineffizienz und Kosten eines einzigen mächtigen Generalistenmodells für alle Aufgaben. Durch die Klassifizierung von Anfragen und den Einsatz spezialisierter Agenten optimiert dieser Ansatz, basierend auf dem Produktiveinsatz, die Kosten und liefert sauberere, kontextrelevantere Ergebnisse.

28