← heapsort-ai

uncertainty

6 items

RESEARCHarXiv CS.CL·il y a 1j

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Les échecs dans le raisonnement des modèles de langage émergent à travers des processus distincts qui laissent des signatures identifiables au niveau des tokens. Ces échecs sont caractérisés comme "échec engagé" ou "incertitude persistante", et la compréhension de ces signatures aide à distinguer les réalisations échouées des réussies dans diverses configurations.

36
RESEARCHarXiv CS.AI·il y a 19j

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Cette recherche propose une nouvelle famille de métriques, $ECUAS_n$, pour évaluer les systèmes augmentés par l'incertitude (UA) dans la prise de décision automatisée. Elle soutient que les approches d'évaluation existantes sont insuffisantes pour évaluer la performance globale des systèmes UA, où l'incertitude prédictive est cruciale pour que les utilisateurs prennent des décisions éclairées.

30
RESEARCHarXiv CS.CL·il y a 25j

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Cette recherche évalue les grands modèles de langage (LLMs) dans la réponse aux questions biomédicales, en abordant leur fiabilité face à des preuves conflictuelles ou incomplètes. Elle révèle que la précision des LLMs diminue significativement et que les prédictions s'inversent lorsque l'ordre des documents corrects et contradictoires est inversé, soulignant les problèmes d'effets d'ordre et la nécessité d'une abstention consciente des conflits.

27
RESEARCHarXiv CS.AI·il y a 8j

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Cet article propose un cadre sensible à l'incertitude pour l'apprentissage par renforcement dans la conduite autonome, utilisant les conseils d'experts pour guider l'exploration en toute sécurité tout en évitant la dépendance à long terme. Il utilise des seuils adaptatifs pour le déclenchement des conseils et une stratégie de 'commitment-cooldown' pour réguler le guidage, démontrant des performances améliorées dans les simulations CARLA.

27