RESEARCHarXiv CS.LG·19d atrás
Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry
Geometry-Lite é uma nova sonda de nível de prompt projetada para interpretar como a evidência de segurança se desenvolve nas camadas de grandes modelos de linguagem. Ele analisa a geometria da margem camada por camada usando várias leituras para entender a formação de limites, melhorando a detecção de segurança em relação a sondas de camada única.
29