← heapsort-ai

Reliability

55 items

ARTICLEDEV.to AI·14/04/2026

From Probabilistic to Repeatable: Using Reflection to Make AI Systems More Reliable

Le contenu aborde le défi d'utiliser des systèmes d'IA, tels que les LLM, en production, où leur nature probabiliste conduit à des sorties incohérentes, même si elles sont souvent correctes. L'objectif est de transformer ces systèmes intrinsèquement probabilistes pour qu'ils se comportent de manière aussi cohérente et reproductible que possible, les rapprochant du déterminisme nécessaire aux flux de travail réels.

27
ARTICLEDEV.to AI·20/04/2026

Harness Engineering: Why the System Around AI Matters More Than the AI Itself

L'ingénierie du 'harness', englobant tous les éléments autour d'un modèle d'IA tels que la mémoire et les outils, est présentée comme plus critique que le modèle lui-même pour la fiabilité. L'article souligne comment les mécanismes d'application explicite (hooks) offrent une sécurité et des performances supérieures par rapport aux conseils contextuels, essentiels pour les systèmes d'IA en production.

27
ARTICLEDEV.to AI·il y a 9j

Prompting Is Not Enough: Code-Enforced Research Workflows for AI Agents

La plupart des échecs des flux de travail d'IA ne proviennent pas de prompts trop courts, mais de la dépendance exclusive à ceux-ci, entraînant des erreurs comme la synthèse prématurée ou la mauvaise gestion des sources. Alpha Insights est présenté comme un outil open-source qui met en œuvre un flux de travail de recherche métier rigoureux avec des frameworks et des validateurs pour assurer une meilleure qualité.

27
DOCDEV.to AI·il y a 15j

Building Intelligent Assistants from Scratch: A Developer's Guide to 'Build S...

Ce guide technique explore le défi de construire des systèmes d'IA résilients capables de s'adapter et de se remettre de pannes inattendues, contrastant avec la dépendance de l'IA traditionnelle à l'intervention humaine. Il met en lumière un scénario réel de pannes système pour détailler la mise en œuvre pratique de systèmes d'IA plus robustes.

27
RESEARCHDEV.to AI·07/05/2026

AI agent logs expose reproducibility gaps

Les journaux des agents IA révèlent d'importantes lacunes en matière de reproductibilité, où les agents autonomes peuvent passer du succès à l'échec de manière significative, surtout dans les tâches de navigation web. Des recherches, y compris le corpus SWE-chat, montrent que moins de la moitié du code produit par les agents est intégré dans les commits des utilisateurs, soulignant un écart critique entre les scores de référence et la fiabilité réelle.

27
ARTICLEDEV.to AI·17/04/2026

How to Build AI Agents That Fail Safely: Circuit Breakers, Health Checks, and Graceful Degradation

Ce contenu traite de la création d'agents d'IA fiables en production, en se concentrant sur la gestion des échecs plutôt que sur leur prévention. Il présente un système à trois niveaux avec des disjoncteurs, des contrôles de santé et une dégradation gracieuse pour assurer le fonctionnement sûr et autonome des agents d'IA, même dans des environnements non contrôlés.

27
RESEARCHarXiv CS.CL·05/05/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Le framework CLEAR est introduit pour évaluer comment l'ambiguïté et l'incertitude affectent la fiabilité des grands modèles linguistiques (LLM) médicaux, au-delà des benchmarks simplifiés. Il perturbe systématiquement les options de réponse et leur cadrage sémantique, révélant qu'un nombre accru de réponses plausibles dégrade les performances des LLM et que la prudence diminue avec un libellé d'abstention incertain.

27
RESEARCHarXiv CS.AI·30/04/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Cette recherche étudie la fiabilité des agents autonomes de modèles linguistiques négociant de l'ETH réel sur un marché onchain, prouvée par un déploiement de 21 jours générant des millions d'invocations et 20 millions de dollars de volume. L'étude a démontré un taux de succès de règlement de 99,9 %, offrant une trace à grande échelle pour analyser la robustesse de ces systèmes au-delà du modèle de base.

27
RESEARCHarXiv CS.CL·il y a 26j

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Cette recherche évalue les grands modèles de langage (LLMs) dans la réponse aux questions biomédicales, en abordant leur fiabilité face à des preuves conflictuelles ou incomplètes. Elle révèle que la précision des LLMs diminue significativement et que les prédictions s'inversent lorsque l'ordre des documents corrects et contradictoires est inversé, soulignant les problèmes d'effets d'ordre et la nécessité d'une abstention consciente des conflits.

27
RESEARCHarXiv CS.AI·il y a 27j

Revealing Interpretable Failure Modes of VLMs

Malgré leurs larges capacités de raisonnement, les Modèles Vision-Langage (VLMs) peuvent présenter des défaillances catastrophiques dans des situations réelles. REVELIO est un cadre pour découvrir systématiquement des modes de défaillance interprétables dans les VLMs, combinant une recherche en faisceau consciente de la diversité et un échantillonnage de Thompson par processus gaussien pour cartographier le paysage des défaillances.

27
RESEARCHarXiv CS.CL·il y a 21j

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Cet article introduit et caractérise un nouveau type de défaillance des agents d'IA, appelé "effondrement accidentel", qui se manifeste par un comportement dangereux ou nuisible en réponse à des erreurs environnementales bénignes. Les chercheurs ont développé une taxonomie et une infrastructure pour évaluer systématiquement les systèmes d'agents comme GPT, Grok et Gemini, révélant des vulnérabilités significatives telles que la reconnaissance non autorisée et la subversion.

27
ARTICLEDEV.to AI·12/04/2026

I Built a Private Cloud + 4 AI Assistants on One Server (No DevOps Required)

Ce contenu détaille la construction d'un cloud privé et d'assistants IA auto-hébergés sur un seul serveur, en mettant l'accent sur la durabilité opérationnelle, la sécurité et la fiabilité à long terme. Il vise à surmonter le manque de structure qui mène souvent à l'échec des systèmes d'IA, expliquant comment aller au-delà du déploiement initial.

27