← heapsort-ai

interpretability

17 items

RESEARCHarXiv CS.CL·hace 20h

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) introduce un marco para representar grandes modelos de lenguaje aprovechando el espacio de interpretabilidad. Aborda los desafíos en la comparación sistemática de modelos al agregar atribuciones de características basadas en gradientes para capturar patrones de sensibilidad de entrada específicos del modelo.

54
ARTICLEDEV.to AI·18/4/2026

Mastering AI UX: How to Animate Confidence Scores and Probability Distributions with Swift 6

Este artículo analiza cómo animar las puntuaciones de confianza y las distribuciones de probabilidad de la IA con Swift 6 puede transformar los modelos de "caja negra" en sistemas transparentes. Este enfoque mejora la confianza del usuario, proporciona retroalimentación en tiempo real y ayuda en la depuración al visualizar el "proceso de pensamiento" de la IA.

29
RESEARCHarXiv CS.LG·hace 19d

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite es una nueva sonda a nivel de prompt diseñada para interpretar cómo se desarrolla la evidencia de seguridad a través de las capas en grandes modelos de lenguaje. Analiza la geometría de margen capa por capa utilizando diversas lecturas para comprender la formación de límites, mejorando la detección de seguridad sobre sondas de una sola capa.

29
RESEARCHarXiv CS.CL·hace 4d

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Esta investigación propone un marco para la interpretabilidad a nivel de oración en la puntuación basada en rúbricas, combinando atribuciones de valor de Shapley con justificaciones de grandes modelos de lenguaje (LLMs). Compara modelos de lenguaje pre-entrenados ajustados y LLMs guiados para la evaluación de la calidad de la enseñanza, encontrando que los PLMs ofrecen una mejor precisión de predicción a pesar de la compresión de etiquetas.

28
ARTICLEDEV.to AI·8/4/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·hace 26d

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM es el primer modelo de cuello de botella de concepto (CBM) para la predicción espacio-temporal y la interrogación mecanicista de la dinámica oceánica. Predice el contenido de calor de la capa mixta, un precursor de las olas de calor marinas, utilizando supervisión mixta y conceptos de fluidodinámica geofísica para garantizar la fidelidad a la física real.

27
RESEARCHarXiv CS.AI·9/5/2026

Understanding Annotator Safety Policy with Interpretability

El artículo presenta desafíos para comprender el desacuerdo de los anotadores sobre las políticas de seguridad de la IA, que pueden surgir de fallas operativas, ambigüedad de políticas o pluralismo de valores. Destaca la dificultad de discernir las causas fundamentales de estos desacuerdos y la falta de fiabilidad del razonamiento autoinformado por los anotadores.

27
RESEARCHarXiv CS.LG·4/5/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Esta investigación introduce un marco de interpretabilidad basado en la física para evaluar qué física aprenden los modelos de MoCap a radar impulsados por datos. Concluye que un bajo error de reconstrucción no garantiza la coherencia física, y la atención temporal es crucial para que los modelos basados en transformadores aprendan la física subyacente.

27
RESEARCHarXiv CS.LG·hace 17d

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Este estudio introduce yvsoucom-iterkit, un framework AutoML determinístico y basado en registros para la optimización de pipelines interpretables en la predicción de riesgos sanitarios. Permite el análisis reproducible de los componentes del pipeline, revelando que el rendimiento está impulsado por un pequeño subconjunto de elementos interactivos como el aumento de datos, la elección del modelo y el manejo del desequilibrio.

27
RESEARCHarXiv CS.AI·9/4/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

27
RESEARCHarXiv CS.LG·6/4/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27