interpretability

17 items

RESEARCHarXiv CS.CL·il y a 20h

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) propose un cadre pour représenter les grands modèles linguistiques en exploitant l'espace d'interprétabilité. Il améliore la comparaison systématique des modèles en agrégeant les attributions de caractéristiques basées sur le gradient pour saisir les modèles de sensibilité d'entrée spécifiques au modèle.

LLMs model representation security model comparison

ARTICLEDEV.to AI·18/04/2026

Mastering AI UX: How to Animate Confidence Scores and Probability Distributions with Swift 6

Cet article explore comment l'animation des scores de confiance et des distributions de probabilité de l'IA avec Swift 6 peut transformer les modèles de "boîte noire" en systèmes transparents. Cette approche renforce la confiance de l'utilisateur, fournit un retour d'information en temps réel et facilite le débogage en visualisant le "processus de pensée" de l'IA.

swiftui interpretability AI UX

RESEARCHarXiv CS.LG·il y a 19j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.CL·il y a 4j

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Cette recherche propose un cadre pour l'interprétabilité au niveau des phrases dans la notation basée sur des rubriques, combinant les attributions de valeur de Shapley avec des rationales issues de grands modèles de langage (LLM). Il compare les modèles de langage pré-entraînés affinés et les LLM sollicités pour l'évaluation de la qualité de l'enseignement, constatant que les PLM offrent une meilleure précision de prédiction malgré la compression des étiquettes.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.AI·20/04/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Ce document de position soutient que le raisonnement des LLM doit être étudié comme une formation de trajectoire d'état latent plutôt que comme une chaîne de pensée (CoT) superficielle et fidèle. Il formalise trois hypothèses concurrentes sur l'objet primaire du raisonnement, impactant la fidélité, l'interprétabilité et les benchmarks.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.LG·il y a 26j

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM est le premier modèle de goulot d'étranglement conceptuel (CBM) pour la prédiction spatiotemporelle et l'interrogation mécanistique de la dynamique océanique. Il prédit le contenu thermique de la couche de mélange, un précurseur des vagues de chaleur marines, en utilisant une supervision mixte et des concepts de fluidodynamique géophysique pour assurer la fidélité à la physique sous-jacente.

forecasting AI models Oceanography machine learning

DOCDEV.to AI·21/04/2026

Mastering AI UI: Building a Reusable, Animated Confidence Bar with Swift 6 and SwiftUI

Ce guide explique le rôle essentiel d'une barre de confiance dans les applications d'IA pour établir la confiance des utilisateurs et améliorer la transparence concernant les prédictions du modèle. Il détaille comment construire une barre de confiance réutilisable et animée avec Swift 6 et SwiftUI.

swiftui user experience AI UI interpretability

RESEARCHAnthropic (YouTube)·07/05/2026

Translating Claude’s thoughts into language

Ce contenu explore le domaine fascinant de la traduction des processus internes ou des « pensées » d'un modèle d'intelligence artificielle comme Claude en un langage compréhensible. Il étudie comment les opérations complexes de l'IA peuvent être interprétées et exprimées pour mieux comprendre son raisonnement.

cognitive AI Natural Language Processing interpretability AI

Translating Claude’s thoughts into language

NEWSMIT Tech Review AI·30/04/2026

This startup’s new mechanistic interpretability tool lets you debug LLMs

La startup Goodfire a lancé Silico, un nouvel outil d'interprétabilité mécaniste permettant de déboguer et d'ajuster les paramètres des LLM pendant l'entraînement. Cela offre un contrôle plus fin sur le développement des modèles.

LLMs interpretability AI tools Debugging

RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.LG·04/05/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Cette recherche introduit un cadre d'interprétabilité basé sur la physique pour évaluer ce que les modèles MoCap-vers-radar basés sur les données apprennent de la physique. Elle révèle qu'une faible erreur de reconstruction ne garantit pas la cohérence physique, et l'attention temporelle est essentielle pour que les modèles basés sur les transformateurs apprennent la physique sous-jacente.

Physics Motion Capture machine learning interpretability

RESEARCHarXiv CS.LG·il y a 17j

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Cette étude présente yvsoucom-iterkit, un framework AutoML déterministe et basé sur les logs pour l'optimisation de pipelines interprétables en prédiction de risque de santé. Il permet une analyse reproductible des composants du pipeline, montrant que la performance est déterminée par un petit sous-ensemble d'éléments interactifs comme l'augmentation, le choix du modèle et la gestion du déséquilibre.

Healthcare machine learning interpretability AutoML

RESEARCHarXiv CS.AI·il y a 28j

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Cet article examine comment les LLM apprennent en contexte, en utilisant une tâche de marche aléatoire sur graphe pour déterminer s'ils correspondent à des modèles ou infèrent une structure latente. Il révèle qu'aucune explication n'est suffisante à elle seule, présentant des preuves d'encodage simultané des topologies de graphes et d'interventions causales.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·09/04/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

deterministic AI LLM applications interpretability AI reliability

RESEARCHarXiv CS.LG·06/04/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

NEWSGoogle DeepMind Blog·16/12/2025

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior

Gemma Scope 2 foi lançado, disponibilizando ferramentas abertas de interpretabilidade para a família Gemma 3. Isso visa ajudar a comunidade de segurança de IA a aprofundar a compreensão do comportamento de modelos de linguagem complexos.

language models Gemma interpretability AI safety