RESEARCH29
Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry
arXiv CS.LG·21 mai 2026
Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.
Lire l'original ↗