← heapsort-ai

uncertainty

6 items

RESEARCHarXiv CS.CL·vor 1T

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Fehler im Sprachmodell-Denken entstehen durch unterschiedliche Prozesse, die identifizierbare Token-Level-Signaturen hinterlassen. Diese Fehler werden als „festgelegter Fehler“ oder „anhaltende Unsicherheit“ charakterisiert, und das Verständnis dieser Signaturen hilft, fehlerhafte von erfolgreichen Vervollständigungen in verschiedenen Konfigurationen zu unterscheiden.

36
RESEARCHarXiv CS.AI·vor 19T

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Diese Forschung schlägt eine neue Metrikfamilie, $ECUAS_n$, zur Bewertung von unsicherheitserweiterten (UA) Systemen in der automatisierten Entscheidungsfindung vor. Es wird argumentiert, dass bestehende Bewertungsansätze unzureichend sind, um die Gesamtleistung von UA-Systemen zu beurteilen, bei denen die prädiktive Unsicherheit für fundierte Benutzerentscheidungen entscheidend ist.

30
RESEARCHarXiv CS.CL·vor 25T

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Diese Forschung bewertet große Sprachmodelle (LLMs) bei der Beantwortung biomedizinischer Fragen, wobei deren Zuverlässigkeit bei widersprüchlichen oder unvollständigen Beweisen thematisiert wird. Es zeigt sich, dass die Genauigkeit von LLMs erheblich sinkt und Vorhersagen sich ändern, wenn die Reihenfolge korrekter und widersprüchlicher Dokumente vertauscht wird, was Probleme mit Reihenfolgeeffekten und die Notwendigkeit einer konfliktbewussten Enthaltung hervorhebt.

27
RESEARCHarXiv CS.AI·vor 8T

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Dieses Papier schlägt ein unsicherheitsbewusstes Framework für Reinforcement Learning im autonomen Fahren vor, das Expertenratschläge zur sicheren Steuerung der Exploration nutzt und langfristige Abhängigkeiten vermeidet. Es verwendet adaptive Schwellenwerte für die Ratgeberauslösung und eine Commitment-Cooldown-Strategie zur Regulierung der Anleitung, wodurch eine verbesserte Leistung in CARLA-Simulationen gezeigt wird.

27