LLM safety

3 items

RESEARCHarXiv CS.CL·hace 5d

Expert-Aware Refusal Steering

Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.

MoE models inference refusal steering AI alignment

RESEARCHDEV.to AI·8/5/2026

Tiny weight edits improve LLM safety

Pequeñas ediciones de peso dirigidas a cabezas de atención específicas en LLMs, como demuestra el método ASGuard, pueden reducir drásticamente las tasas de éxito de los jailbreaks. Este enfoque quirúrgico corrige vulnerabilidades, como los ataques de cambio de tiempo verbal, al amortiguar las activaciones en las cabezas de atención relevantes, mejorando significativamente la seguridad sin comprometer la competencia general del modelo.

AI models jailbreaking security LLM safety

ARTICLEDEV.to AI·hace 16d

I open-sourced a 4-agent blood-panel triage workflow on heym, with a deterministic Python safety gate that runs BEFORE any LLM token

Se desarrolló un flujo de trabajo multiagente de 4 agentes para transformar paneles sanguíneos brutos en informes estructurados de educación del paciente. La arquitectura incluye una puerta de seguridad Python determinista que se ejecuta antes de cualquier token LLM, evitando fallas críticas en valores de laboratorio de emergencia.

patient education deterministic AI LLM safety healthcare AI