← heapsort-ai

interpretability

17 items

RESEARCHarXiv CS.CL·il y a 20h

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) propose un cadre pour représenter les grands modèles linguistiques en exploitant l'espace d'interprétabilité. Il améliore la comparaison systématique des modèles en agrégeant les attributions de caractéristiques basées sur le gradient pour saisir les modèles de sensibilité d'entrée spécifiques au modèle.

54
ARTICLEDEV.to AI·18/04/2026

Mastering AI UX: How to Animate Confidence Scores and Probability Distributions with Swift 6

Cet article explore comment l'animation des scores de confiance et des distributions de probabilité de l'IA avec Swift 6 peut transformer les modèles de "boîte noire" en systèmes transparents. Cette approche renforce la confiance de l'utilisateur, fournit un retour d'information en temps réel et facilite le débogage en visualisant le "processus de pensée" de l'IA.

29
RESEARCHarXiv CS.LG·il y a 19j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

29
RESEARCHarXiv CS.CL·il y a 4j

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Cette recherche propose un cadre pour l'interprétabilité au niveau des phrases dans la notation basée sur des rubriques, combinant les attributions de valeur de Shapley avec des rationales issues de grands modèles de langage (LLM). Il compare les modèles de langage pré-entraînés affinés et les LLM sollicités pour l'évaluation de la qualité de l'enseignement, constatant que les PLM offrent une meilleure précision de prédiction malgré la compression des étiquettes.

28
ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·il y a 26j

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM est le premier modèle de goulot d'étranglement conceptuel (CBM) pour la prédiction spatiotemporelle et l'interrogation mécanistique de la dynamique océanique. Il prédit le contenu thermique de la couche de mélange, un précurseur des vagues de chaleur marines, en utilisant une supervision mixte et des concepts de fluidodynamique géophysique pour assurer la fidélité à la physique sous-jacente.

27
RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.

27
RESEARCHarXiv CS.LG·04/05/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Cette recherche introduit un cadre d'interprétabilité basé sur la physique pour évaluer ce que les modèles MoCap-vers-radar basés sur les données apprennent de la physique. Elle révèle qu'une faible erreur de reconstruction ne garantit pas la cohérence physique, et l'attention temporelle est essentielle pour que les modèles basés sur les transformateurs apprennent la physique sous-jacente.

27
RESEARCHarXiv CS.LG·il y a 17j

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Cette étude présente yvsoucom-iterkit, un framework AutoML déterministe et basé sur les logs pour l'optimisation de pipelines interprétables en prédiction de risque de santé. Il permet une analyse reproductible des composants du pipeline, montrant que la performance est déterminée par un petit sous-ensemble d'éléments interactifs comme l'augmentation, le choix du modèle et la gestion du déséquilibre.

27
RESEARCHarXiv CS.AI·il y a 28j

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Cet article examine comment les LLM apprennent en contexte, en utilisant une tâche de marche aléatoire sur graphe pour déterminer s'ils correspondent à des modèles ou infèrent une structure latente. Il révèle qu'aucune explication n'est suffisante à elle seule, présentant des preuves d'encodage simultané des topologies de graphes et d'interventions causales.

27
RESEARCHarXiv CS.AI·09/04/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

27
RESEARCHarXiv CS.LG·06/04/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27