← heapsort-ai

interpretability

17 items

RESEARCHarXiv CS.CL·vor 20Std

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) stellt ein Framework zur Darstellung großer Sprachmodelle vor, das den Interpretierbarkeitsraum nutzt. Es adressiert Herausforderungen beim systematischen Modellvergleich, indem es gradientenbasierte Feature-Attributionen aggregiert, um modellspezifische Eingabe-Empfindlichkeitsmuster zu erfassen.

54
RESEARCHarXiv CS.LG·vor 19T

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite ist eine neuartige Prompt-Level-Sonde, die entwickelt wurde, um zu interpretieren, wie sich Sicherheitsnachweise in den Schichten großer Sprachmodelle entwickeln. Sie analysiert die Geometrie der Layer-weisen Margen mithilfe verschiedener Ausleseverfahren, um die Grenzbildung zu verstehen und verbessert die Sicherheitserkennung gegenüber Single-Layer-Sonden.

29
RESEARCHarXiv CS.CL·vor 4T

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Diese Forschung schlägt einen Rahmen für die Satzebenen-Interpretierbarkeit bei der rubrikbasierten Bewertung vor, der Shapley-Wert-Attributionen mit Rationalen von großen Sprachmodellen (LLMs) kombiniert. Er vergleicht feinabgestimmte vortrainierte Sprachmodelle und gepromptete LLMs zur Bewertung der Unterrichtsqualität und stellt fest, dass PLMs trotz Label-Kompression eine bessere Vorhersagegenauigkeit bieten.

28
ARTICLEDEV.to AI·4/8/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·vor 26T

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM ist das erste Konzept-Engpass-Modell (CBM) für räumlich-zeitliche Vorhersagen und die mechanistische Untersuchung von Ozeandynamiken. Es sagt den Wärmegehalt der Mischschicht, einen Vorläufer von Meereshitzewellen, voraus, indem es gemischte Überwachung und vorgegebene geophysikalische Fluiddynamik-Konzepte nutzt, um die Genauigkeit gegenüber der realen Physik zu gewährleisten.

27
RESEARCHarXiv CS.AI·5/9/2026

Understanding Annotator Safety Policy with Interpretability

Die Arbeit stellt Herausforderungen beim Verständnis von Uneinigkeiten der Annotatoren hinsichtlich der KI-Sicherheitspolitiken vor, die aus Betriebsfehlern, Richtlinienzweideutigkeit oder Wertepluralismus resultieren können. Sie hebt die Schwierigkeit hervor, die Ursachen dieser Meinungsverschiedenheiten zu erkennen, sowie die Unzuverlässigkeit selbstberichteter Begründungen der Annotatoren.

27
RESEARCHarXiv CS.LG·5/4/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Diese Forschung stellt ein physikbasiertes Interpretierbarkeits-Framework vor, um zu bewerten, welche Physik datengesteuerte MoCap-zu-Radar-Modelle lernen. Es zeigt sich, dass ein geringer Rekonstruktionsfehler keine physikalische Konsistenz garantiert und zeitliche Aufmerksamkeit für Transformer-Modelle entscheidend ist, um die zugrunde liegende Physik zu lernen.

27
RESEARCHarXiv CS.LG·vor 17T

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Diese Studie stellt yvsoucom-iterkit vor, ein deterministisches und log-gesteuertes AutoML-Framework zur interpretierbaren Pipeline-Optimierung in der Gesundheitsrisikovorhersage. Es ermöglicht die reproduzierbare Analyse von Pipeline-Komponenten und zeigt, dass die Leistung von einer kleinen Untergruppe interagierender Elemente wie Augmentierung, Modellwahl und Umgang mit Ungleichgewicht bestimmt wird.

27
RESEARCHarXiv CS.AI·4/9/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

27
RESEARCHarXiv CS.LG·4/6/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27