← heapsort-ai

interpretability

17 items

RESEARCHarXiv CS.CL·4d ago

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

This research proposes a framework for sentence-level interpretability in rubric-based scoring, combining Shapley-value attributions with rationales from large language models (LLMs). It compares fine-tuned language models and prompted LLMs for teaching quality assessment, finding PLMs offer better prediction accuracy despite label compression.

28
ARTICLEDEV.to AI·4/8/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·17d ago

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

This study introduces yvsoucom-iterkit, a deterministic and log-driven automated machine learning framework for interpretable pipeline optimization in healthcare risk prediction. It enables reproducible analysis of pipeline components, revealing that performance is driven by a small subset of interacting elements like augmentation, model choice, and imbalance handling.

27
RESEARCHarXiv CS.AI·4/9/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

27
RESEARCHarXiv CS.LG·4/6/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27