RESEARCH29
Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry
arXiv CS.LG·21 de mayo de 2026
Geometry-Lite es una nueva sonda a nivel de prompt diseñada para interpretar cómo se desarrolla la evidencia de seguridad a través de las capas en grandes modelos de lenguaje. Analiza la geometría de margen capa por capa utilizando diversas lecturas para comprender la formación de límites, mejorando la detección de seguridad sobre sondas de una sola capa.
Leer original ↗