RESEARCH29
Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry
arXiv CS.LG·21 de maio de 2026
Geometry-Lite é uma nova sonda de nível de prompt projetada para interpretar como a evidência de segurança se desenvolve nas camadas de grandes modelos de linguagem. Ele analisa a geometria da margem camada por camada usando várias leituras para entender a formação de limites, melhorando a detecção de segurança em relação a sondas de camada única.
Ler original ↗