interpretability

17 items

RESEARCHarXiv CS.CL·vor 20Std

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) stellt ein Framework zur Darstellung großer Sprachmodelle vor, das den Interpretierbarkeitsraum nutzt. Es adressiert Herausforderungen beim systematischen Modellvergleich, indem es gradientenbasierte Feature-Attributionen aggregiert, um modellspezifische Eingabe-Empfindlichkeitsmuster zu erfassen.

LLMs model representation security model comparison

ARTICLEDEV.to AI·4/18/2026

Mastering AI UX: How to Animate Confidence Scores and Probability Distributions with Swift 6

Dieser Artikel untersucht, wie die Animation von KI-Konfidenzwerten und Wahrscheinlichkeitsverteilungen mit Swift 6 „Black-Box“-Modelle in transparente Systeme verwandeln kann. Dieser Ansatz erhöht das Benutzervertrauen, liefert Echtzeit-Feedback und unterstützt das Debugging durch die Visualisierung des „Denkprozesses“ der KI.

swiftui interpretability AI UX

RESEARCHarXiv CS.LG·vor 19T

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite ist eine neuartige Prompt-Level-Sonde, die entwickelt wurde, um zu interpretieren, wie sich Sicherheitsnachweise in den Schichten großer Sprachmodelle entwickeln. Sie analysiert die Geometrie der Layer-weisen Margen mithilfe verschiedener Ausleseverfahren, um die Grenzbildung zu verstehen und verbessert die Sicherheitserkennung gegenüber Single-Layer-Sonden.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.CL·vor 4T

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Diese Forschung schlägt einen Rahmen für die Satzebenen-Interpretierbarkeit bei der rubrikbasierten Bewertung vor, der Shapley-Wert-Attributionen mit Rationalen von großen Sprachmodellen (LLMs) kombiniert. Er vergleicht feinabgestimmte vortrainierte Sprachmodelle und gepromptete LLMs zur Bewertung der Unterrichtsqualität und stellt fest, dass PLMs trotz Label-Kompression eine bessere Vorhersagegenauigkeit bieten.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·4/8/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.AI·4/20/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Dieses Positionspapier argumentiert, dass das LLM-Schlussfolgern als latente Zustandsentwicklung und nicht als oberflächliche, getreue Gedankenketten (CoT) untersucht werden sollte. Es formalisiert drei konkurrierende Hypothesen über das primäre Objekt des Schlussfolgerns, was Auswirkungen auf Treue, Interpretierbarkeit und Benchmarks hat.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.LG·vor 26T

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM ist das erste Konzept-Engpass-Modell (CBM) für räumlich-zeitliche Vorhersagen und die mechanistische Untersuchung von Ozeandynamiken. Es sagt den Wärmegehalt der Mischschicht, einen Vorläufer von Meereshitzewellen, voraus, indem es gemischte Überwachung und vorgegebene geophysikalische Fluiddynamik-Konzepte nutzt, um die Genauigkeit gegenüber der realen Physik zu gewährleisten.

forecasting AI models Oceanography machine learning

DOCDEV.to AI·4/21/2026

Mastering AI UI: Building a Reusable, Animated Confidence Bar with Swift 6 and SwiftUI

Dieser Leitfaden erklärt die entscheidende Rolle einer Konfidenzleiste in KI-Anwendungen, um das Vertrauen der Benutzer aufzubauen und die Transparenz über Modellvorhersagen zu erhöhen. Er beschreibt, wie eine wiederverwendbare, animierte Konfidenzleiste mit Swift 6 und SwiftUI erstellt wird.

swiftui user experience AI UI interpretability

RESEARCHAnthropic (YouTube)·5/7/2026

Translating Claude’s thoughts into language

Dieser Inhalt befasst sich mit dem faszinierenden Bereich der Übersetzung der internen Prozesse oder „Gedanken“ eines KI-Modells wie Claude in verständliche Sprache. Er untersucht, wie die komplexen Operationen der KI interpretiert und ausgedrückt werden können, um deren Denkweise besser zu verstehen.

cognitive AI Natural Language Processing interpretability AI

Translating Claude’s thoughts into language

NEWSMIT Tech Review AI·4/30/2026

This startup’s new mechanistic interpretability tool lets you debug LLMs

Das Startup Goodfire hat Silico veröffentlicht, ein neues Werkzeug für mechanistische Interpretierbarkeit, das das Debuggen und Anpassen von LLM-Parametern während des Trainings ermöglicht. Dies bietet Entwicklern eine feinere Kontrolle über das Modellverhalten.

LLMs interpretability AI tools Debugging

RESEARCHarXiv CS.AI·5/9/2026

Understanding Annotator Safety Policy with Interpretability

Die Arbeit stellt Herausforderungen beim Verständnis von Uneinigkeiten der Annotatoren hinsichtlich der KI-Sicherheitspolitiken vor, die aus Betriebsfehlern, Richtlinienzweideutigkeit oder Wertepluralismus resultieren können. Sie hebt die Schwierigkeit hervor, die Ursachen dieser Meinungsverschiedenheiten zu erkennen, sowie die Unzuverlässigkeit selbstberichteter Begründungen der Annotatoren.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.LG·5/4/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Diese Forschung stellt ein physikbasiertes Interpretierbarkeits-Framework vor, um zu bewerten, welche Physik datengesteuerte MoCap-zu-Radar-Modelle lernen. Es zeigt sich, dass ein geringer Rekonstruktionsfehler keine physikalische Konsistenz garantiert und zeitliche Aufmerksamkeit für Transformer-Modelle entscheidend ist, um die zugrunde liegende Physik zu lernen.

Physics Motion Capture machine learning interpretability

RESEARCHarXiv CS.LG·vor 17T

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Diese Studie stellt yvsoucom-iterkit vor, ein deterministisches und log-gesteuertes AutoML-Framework zur interpretierbaren Pipeline-Optimierung in der Gesundheitsrisikovorhersage. Es ermöglicht die reproduzierbare Analyse von Pipeline-Komponenten und zeigt, dass die Leistung von einer kleinen Untergruppe interagierender Elemente wie Augmentierung, Modellwahl und Umgang mit Ungleichgewicht bestimmt wird.

Healthcare machine learning interpretability AutoML

RESEARCHarXiv CS.AI·vor 28T

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Diese Arbeit untersucht, wie LLMs im Kontext lernen, indem sie eine Graph-Zufallswanderungsaufgabe verwendet, um zu erforschen, ob sie Muster abgleichen oder latente Strukturen ableiten. Es zeigt sich, dass keine Erklärung allein ausreicht, und präsentiert Beweise für die gleichzeitige Kodierung von Graphtopologien und kausale Interventionen.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·4/9/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

deterministic AI LLM applications interpretability AI reliability

RESEARCHarXiv CS.LG·4/6/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

NEWSGoogle DeepMind Blog·12/16/2025

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior

Gemma Scope 2 foi lançado, disponibilizando ferramentas abertas de interpretabilidade para a família Gemma 3. Isso visa ajudar a comunidade de segurança de IA a aprofundar a compreensão do comportamento de modelos de linguagem complexos.

language models Gemma interpretability AI safety