heapsort
RESEARCH29

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

arXiv CS.LG·21 de maio de 2026

Geometry-Lite é uma nova sonda de nível de prompt projetada para interpretar como a evidência de segurança se desenvolve nas camadas de grandes modelos de linguagem. Ele analisa a geometria da margem camada por camada usando várias leituras para entender a formação de limites, melhorando a detecção de segurança em relação a sondas de camada única.

Ler original