← heapsort-ai

LLMs

723 items

RESEARCHarXiv CS.AI·4/22/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Dieses Papier stellt ein neuro-symbolisches Framework vor, um naturwissenschaftliche Argumentationsprobleme in ausführbares Narsese zu übersetzen, basierend auf Prädikatenlogik. Es präsentiert NARS-Reasoning-v0.1, einen neuen Benchmark mit Argumentationsproblemen, deren formalen Darstellungen und Wahrheitslabels zur Bewertung von Argumentationsfähigkeiten.

27
RESEARCHarXiv CS.AI·vor 27T

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Dieses Papier stellt CLIPR vor, ein Framework, das Großen Sprachmodellen (LLMs) ermöglicht, menschlich ausgerichtete Entscheidungen zu treffen, indem es latente Benutzerpräferenzen aus begrenzten Interaktionen ableitet. Es befasst sich mit den Schwierigkeiten von LLMs, menschlich ausgerichtete Lösungen zu produzieren, und den Einschränkungen bestehender Ansätze bei der Verallgemeinerung von Präferenzen.

27
RESEARCHarXiv CS.CL·vor 21T

Prompting language influences diagnostic reasoning and accuracy of large language models

Diese Forschung bewertete den Einfluss der Prompt-Sprache auf die diagnostische Argumentation und Genauigkeit großer Sprachmodelle (LLMs) im klinischen Umfeld. Vier von fünf Modellen zeigten eine bessere Leistung auf Englisch, was die Unsicherheit hinsichtlich der Zuverlässigkeit von LLMs in anderen Sprachen hervorhebt.

27
RESEARCHarXiv CS.LG·vor 21T

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA schlägt eine neue Methode zur Feinabstimmung von Mixture-of-Experts (MoE)-Modellen vor, indem Low-Rank Adaptation (LoRA)-Module nur an den am häufigsten aktivierten Experten jeder Schicht angebracht werden. Diese Technik reduziert die trainierbaren Parameter erheblich und verbessert die Leistung, was auf eine strukturierte Regularisierung zurückzuführen ist, die die vortrainierte Expertenspezialisierung bewahrt.

27
ARTICLEDEV.to AI·4/16/2026

Claude Workflows & Opus 4.7 Drive AI Code Generation; Python Observability Boosts Deployment

Diese Woche werden praktische Strategien zur KI-Codegenerierung mit Claudes neuesten Opus 4.7-Funktionen vorgestellt, die eine verbesserte Leistung versprechen. Zudem zielt ein wichtiger Python-Vorschlag darauf ab, die Observability auf Systemebene zu verbessern, was entscheidend für robuste KI-Framework-Implementierungen und die Nutzung fortgeschrittener Prompt-Engineering-Techniken ist.

27
RESEARCHarXiv CS.CL·vor 28T

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Diese Forschung bewertet systematisch die Beziehung zwischen differenzieller Privatsphäre (DP) und sozialer Voreingenommenheit in großen Sprachmodellen (LLMs). Sie vergleicht ein DP-trainiertes LLM mit Nicht-DP-Baselines und stellt fest, dass DP die Voreingenommenheit bei Satzbewertungsaufgaben reduziert, dies jedoch nicht für alle Aufgaben gilt, und zeigt eine Diskrepanz zwischen Logit-Level- und Output-Level-Voreingenommenheit auf.

27
ARTICLEDEV.to AI·4/16/2026

Ai Hallucination Sanctions Surge How The Oregon Vineyard Ruling Walmart S Shortcut And California Ba

Sanktionen für KI-Halluzinationen wurden im April 2026 zu einem ernsten Thema in Vorstandssitzungen, angetrieben durch neue staatliche Datenschutzgesetze mit KI-Transparenzregeln und einem Rahmen des Weißen Hauses, der Bereitsteller zur Rechenschaft zieht. Unternehmen müssen nun Halluzinationen verstehen und mindern, wobei spezifische Urteile die rechtlichen und finanziellen Risiken unbestätigter LLM-Ausgaben hervorheben.

27
ARTICLEDEV.to AI·vor 11T

Why I'm building Hyphae: provenance over prediction (and the 3-line baseline that tied it)

Der Autor begann mit dem Aufbau von Hyphae, um ein kognitives Substrat ohne große Sprachmodelle zu schaffen, doch eine einfache Basislösung erreichte die gleiche Leistung, was ein kritisches Problem aufzeigte. Das Projekt konzentriert sich nun darauf, die Provenienz in KI-generierten Antworten zu gewährleisten, was für die Auditierbarkeit unerlässlich ist.

27
ARTICLEDEV.to AI·vor 11T

Why Most RAG Pipelines Fail in Production

Dieser Artikel untersucht, warum die meisten RAG-Pipelines (Retrieval-Augmented Generation) in der Produktion scheitern, indem er die Einfachheit von Demos mit der Komplexität und Unordnung realer Datensätze vergleicht. Er beleuchtet die Herausforderungen der KI-Systemtechnik, insbesondere bei der Datenaufnahme, um RAG auf Produktionsumgebungen zu skalieren.

27